Tune Lead Scoring Bias-Variance

Business Context

Salesforce wants to improve lead prioritization in Sales Cloud by predicting whether a newly created B2B lead will convert to an opportunity within 30 days. The sales operations team needs a model that generalizes well across regions and campaign types, not one that only fits historical noise.

Dataset

You are given a historical lead-conversion dataset extracted from Sales Cloud and Marketing Cloud engagement logs.

Feature Group	Count	Examples
Lead attributes	10	industry, employee_count, country, lead_source, annual_revenue
Engagement features	8	email_opens_7d, form_submits_30d, web_visits_14d, campaign_click_rate
Sales activity	6	call_attempts_7d, email_touches_14d, days_to_first_contact
Derived behavioral features	6	engagement_trend_14d, touches_per_day, recency_score

Size: 240K leads over 18 months, 30 features
Target: Binary — converted to opportunity within 30 days
Class balance: 18% positive, 82% negative
Missing data: 12% missing in revenue/company fields, 6% missing in engagement fields for net-new leads

Success Criteria

A good solution should demonstrate the bias-variance tradeoff in practice by comparing at least one high-bias model and one high-variance model, then selecting a balanced approach that performs best on unseen data. Target performance is AUC-ROC >= 0.82, PR-AUC >= 0.50, and less than 3 percentage points gap between validation and test AUC-ROC.

Constraints

Predictions run in nightly batch scoring for ~500K active leads
Sales leadership wants interpretable drivers for why a lead is high priority
Retraining should be feasible monthly without expensive infrastructure

Deliverables

Train and compare models that illustrate underfitting vs overfitting
Explain the bias-variance tradeoff using train, validation, and test results
Show how regularization, model complexity, and cross-validation affect generalization
Recommend a final model for Sales Cloud deployment
Provide evaluation metrics and feature importance or coefficient-based interpretation

Business Context

Dataset

You are given a historical lead-conversion dataset extracted from Sales Cloud and Marketing Cloud engagement logs.

Feature Group	Count	Examples
Lead attributes	10	industry, employee_count, country, lead_source, annual_revenue
Engagement features	8	email_opens_7d, form_submits_30d, web_visits_14d, campaign_click_rate
Sales activity	6	call_attempts_7d, email_touches_14d, days_to_first_contact
Derived behavioral features	6	engagement_trend_14d, touches_per_day, recency_score

Size: 240K leads over 18 months, 30 features
Target: Binary — converted to opportunity within 30 days
Class balance: 18% positive, 82% negative
Missing data: 12% missing in revenue/company fields, 6% missing in engagement fields for net-new leads

Success Criteria

Constraints

Predictions run in nightly batch scoring for ~500K active leads
Sales leadership wants interpretable drivers for why a lead is high priority
Retraining should be feasible monthly without expensive infrastructure

Deliverables

Train and compare models that illustrate underfitting vs overfitting
Explain the bias-variance tradeoff using train, validation, and test results
Show how regularization, model complexity, and cross-validation affect generalization
Recommend a final model for Sales Cloud deployment
Provide evaluation metrics and feature importance or coefficient-based interpretation

Business Context

Dataset

You are given a historical lead-conversion dataset extracted from Sales Cloud and Marketing Cloud engagement logs.

Feature Group	Count	Examples
Lead attributes	10	industry, employee_count, country, lead_source, annual_revenue
Engagement features	8	email_opens_7d, form_submits_30d, web_visits_14d, campaign_click_rate
Sales activity	6	call_attempts_7d, email_touches_14d, days_to_first_contact
Derived behavioral features	6	engagement_trend_14d, touches_per_day, recency_score

Size: 240K leads over 18 months, 30 features
Target: Binary — converted to opportunity within 30 days
Class balance: 18% positive, 82% negative
Missing data: 12% missing in revenue/company fields, 6% missing in engagement fields for net-new leads

Success Criteria

Constraints

Predictions run in nightly batch scoring for ~500K active leads
Sales leadership wants interpretable drivers for why a lead is high priority
Retraining should be feasible monthly without expensive infrastructure

Deliverables

Train and compare models that illustrate underfitting vs overfitting
Explain the bias-variance tradeoff using train, validation, and test results
Show how regularization, model complexity, and cross-validation affect generalization
Recommend a final model for Sales Cloud deployment
Provide evaluation metrics and feature importance or coefficient-based interpretation

Business Context

Dataset

You are given a historical lead-conversion dataset extracted from Sales Cloud and Marketing Cloud engagement logs.

Feature Group	Count	Examples
Lead attributes	10	industry, employee_count, country, lead_source, annual_revenue
Engagement features	8	email_opens_7d, form_submits_30d, web_visits_14d, campaign_click_rate
Sales activity	6	call_attempts_7d, email_touches_14d, days_to_first_contact
Derived behavioral features	6	engagement_trend_14d, touches_per_day, recency_score

Size: 240K leads over 18 months, 30 features
Target: Binary — converted to opportunity within 30 days
Class balance: 18% positive, 82% negative
Missing data: 12% missing in revenue/company fields, 6% missing in engagement fields for net-new leads

Success Criteria

Constraints

Predictions run in nightly batch scoring for ~500K active leads
Sales leadership wants interpretable drivers for why a lead is high priority
Retraining should be feasible monthly without expensive infrastructure

Deliverables

Train and compare models that illustrate underfitting vs overfitting
Explain the bias-variance tradeoff using train, validation, and test results
Show how regularization, model complexity, and cross-validation affect generalization
Recommend a final model for Sales Cloud deployment
Provide evaluation metrics and feature importance or coefficient-based interpretation

Interview Guides

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Tune Lead Scoring Bias-Variance

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Your Answer

Tune Lead Scoring Bias-Variance

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Tune Lead Scoring Bias-Variance

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Your Answer