Interview Guides

Regularize Lead Scoring for SaaS

Easy

Machine Learning

Business Context

NimbusCRM, a mid-market SaaS company, wants a lead-scoring model to predict whether a trial account will convert to a paid subscription within 14 days. The sales team needs a model that generalizes well to new campaigns because recent experiments added many correlated behavioral and marketing features.

Dataset

You are given a historical training set of trial accounts collected over 18 months.

Feature Group	Count	Examples
Product usage	18	sessions_first_7d, invites_sent, reports_created, active_days
Marketing attribution	9	channel, campaign_id, ad_platform, landing_page
Firmographic	11	company_size, industry, region, employee_count
Sales interactions	7	demo_booked, emails_opened, calls_completed, response_time_hours
Engineered / sparse flags	15	feature_clicked_* indicators, promo_code_used, webinar_attended

Size: 42K trial accounts, 60 features
Target: Binary — converted to paid within 14 days (1) vs not converted (0)
Class balance: 28% positive, 72% negative
Missing data: 12% missing in firmographic fields, 6% missing in sales interaction fields, and high correlation among campaign and usage variables

Success Criteria

A good solution should improve generalization versus an unregularized baseline, achieve test AUC-ROC >= 0.82, and keep the train-test performance gap under 0.03. The final model should also provide interpretable coefficients or feature importance for go-to-market stakeholders.

Constraints

Inference must score 200K leads daily in batch
The sales team prefers interpretable models over black-box ensembles for the first release
Retraining should be simple enough to run weekly

Deliverables

Build a baseline model without regularization and compare it to regularized alternatives.
Explain when regularization should be used and what problem it solves in this dataset.
Implement a training pipeline with preprocessing, cross-validation, and hyperparameter tuning.
Evaluate performance using appropriate classification metrics and calibration checks.
Recommend a production-ready model and justify the regularization choice.

Regularize Lead Scoring for SaaS

Easy

Machine Learning

Business Context

Dataset

You are given a historical training set of trial accounts collected over 18 months.

Feature Group	Count	Examples
Product usage	18	sessions_first_7d, invites_sent, reports_created, active_days
Marketing attribution	9	channel, campaign_id, ad_platform, landing_page
Firmographic	11	company_size, industry, region, employee_count
Sales interactions	7	demo_booked, emails_opened, calls_completed, response_time_hours
Engineered / sparse flags	15	feature_clicked_* indicators, promo_code_used, webinar_attended

Size: 42K trial accounts, 60 features
Target: Binary — converted to paid within 14 days (1) vs not converted (0)
Class balance: 28% positive, 72% negative
Missing data: 12% missing in firmographic fields, 6% missing in sales interaction fields, and high correlation among campaign and usage variables

Success Criteria

Constraints

Inference must score 200K leads daily in batch
The sales team prefers interpretable models over black-box ensembles for the first release
Retraining should be simple enough to run weekly

Deliverables

Build a baseline model without regularization and compare it to regularized alternatives.
Explain when regularization should be used and what problem it solves in this dataset.
Implement a training pipeline with preprocessing, cross-validation, and hyperparameter tuning.
Evaluate performance using appropriate classification metrics and calibration checks.
Recommend a production-ready model and justify the regularization choice.

Your Answer

Regularize Lead Scoring for SaaS

Easy

Machine Learning

Business Context

Dataset

You are given a historical training set of trial accounts collected over 18 months.

Feature Group	Count	Examples
Product usage	18	sessions_first_7d, invites_sent, reports_created, active_days
Marketing attribution	9	channel, campaign_id, ad_platform, landing_page
Firmographic	11	company_size, industry, region, employee_count
Sales interactions	7	demo_booked, emails_opened, calls_completed, response_time_hours
Engineered / sparse flags	15	feature_clicked_* indicators, promo_code_used, webinar_attended

Size: 42K trial accounts, 60 features
Target: Binary — converted to paid within 14 days (1) vs not converted (0)
Class balance: 28% positive, 72% negative
Missing data: 12% missing in firmographic fields, 6% missing in sales interaction fields, and high correlation among campaign and usage variables

Success Criteria

Constraints

Inference must score 200K leads daily in batch
The sales team prefers interpretable models over black-box ensembles for the first release
Retraining should be simple enough to run weekly

Deliverables

Build a baseline model without regularization and compare it to regularized alternatives.
Explain when regularization should be used and what problem it solves in this dataset.
Implement a training pipeline with preprocessing, cross-validation, and hyperparameter tuning.
Evaluate performance using appropriate classification metrics and calibration checks.
Recommend a production-ready model and justify the regularization choice.

Regularize Lead Scoring for SaaS

Easy

Machine Learning

Business Context

Dataset

You are given a historical training set of trial accounts collected over 18 months.

Feature Group	Count	Examples
Product usage	18	sessions_first_7d, invites_sent, reports_created, active_days
Marketing attribution	9	channel, campaign_id, ad_platform, landing_page
Firmographic	11	company_size, industry, region, employee_count
Sales interactions	7	demo_booked, emails_opened, calls_completed, response_time_hours
Engineered / sparse flags	15	feature_clicked_* indicators, promo_code_used, webinar_attended

Size: 42K trial accounts, 60 features
Target: Binary — converted to paid within 14 days (1) vs not converted (0)
Class balance: 28% positive, 72% negative
Missing data: 12% missing in firmographic fields, 6% missing in sales interaction fields, and high correlation among campaign and usage variables

Success Criteria

Constraints

Inference must score 200K leads daily in batch
The sales team prefers interpretable models over black-box ensembles for the first release
Retraining should be simple enough to run weekly

Deliverables

Build a baseline model without regularization and compare it to regularized alternatives.
Explain when regularization should be used and what problem it solves in this dataset.
Implement a training pipeline with preprocessing, cross-validation, and hyperparameter tuning.
Evaluate performance using appropriate classification metrics and calibration checks.
Recommend a production-ready model and justify the regularization choice.