Accelerate Fraud Model Training Runs

Business Context

OpenAI’s billing risk team trains a fraud classifier daily to score card payment attempts and account-level abuse signals. The current training job takes 6+ hours, which delays model refreshes and slows incident response when fraud patterns shift.

Dataset

You are given a tabular binary classification dataset built from 90 days of payment attempts and account activity.

Feature Group	Count	Examples
Transaction features	18	amount_usd, card_bin_risk_score, issuer_country, retry_count
Account features	12	account_age_days, prior_chargebacks, org_size, payment_method_count
Behavioral aggregates	14	failed_payments_1d, spend_7d, distinct_cards_30d, login_velocity
Temporal features	6	hour_of_day, day_of_week, days_since_last_payment
Derived ratios	5	failed_to_success_ratio, amount_vs_account_median

Size: 12.4M payment attempts, 55 features
Target: is_fraud — chargeback or confirmed payment abuse within 14 days
Class balance: 1.6% positive, 98.4% negative
Missing data: 8% missing in issuer/card metadata, 3% missing in account aggregates for new users

Success Criteria

A solution is good enough if it reduces end-to-end training time by at least 60% while keeping PR-AUC within 2% relative of the current production model and preserving recall at 5% alert rate.

Constraints

Daily retraining budget is limited to a single 16-core CPU machine; GPU is not guaranteed.
Batch scoring latency is not critical, but training turnaround is.
The risk team needs feature importance and a reproducible pipeline.
Avoid leakage from future chargeback labels or post-authorization events.

Deliverables

Propose a training strategy that optimizes time-to-result, not just final offline score.
Build a baseline and at least one accelerated training approach.
Justify sampling, feature reduction, and hyperparameter search choices.
Evaluate quality vs runtime tradeoffs using a time-based validation setup.
Recommend what should ship to production and how often it should retrain.

Business Context

Dataset

You are given a tabular binary classification dataset built from 90 days of payment attempts and account activity.

Feature Group	Count	Examples
Transaction features	18	amount_usd, card_bin_risk_score, issuer_country, retry_count
Account features	12	account_age_days, prior_chargebacks, org_size, payment_method_count
Behavioral aggregates	14	failed_payments_1d, spend_7d, distinct_cards_30d, login_velocity
Temporal features	6	hour_of_day, day_of_week, days_since_last_payment
Derived ratios	5	failed_to_success_ratio, amount_vs_account_median

Size: 12.4M payment attempts, 55 features
Target: is_fraud — chargeback or confirmed payment abuse within 14 days
Class balance: 1.6% positive, 98.4% negative
Missing data: 8% missing in issuer/card metadata, 3% missing in account aggregates for new users

Success Criteria

Constraints

Daily retraining budget is limited to a single 16-core CPU machine; GPU is not guaranteed.
Batch scoring latency is not critical, but training turnaround is.
The risk team needs feature importance and a reproducible pipeline.
Avoid leakage from future chargeback labels or post-authorization events.

Deliverables

Propose a training strategy that optimizes time-to-result, not just final offline score.
Build a baseline and at least one accelerated training approach.
Justify sampling, feature reduction, and hyperparameter search choices.
Evaluate quality vs runtime tradeoffs using a time-based validation setup.
Recommend what should ship to production and how often it should retrain.

Business Context

Dataset

You are given a tabular binary classification dataset built from 90 days of payment attempts and account activity.

Feature Group	Count	Examples
Transaction features	18	amount_usd, card_bin_risk_score, issuer_country, retry_count
Account features	12	account_age_days, prior_chargebacks, org_size, payment_method_count
Behavioral aggregates	14	failed_payments_1d, spend_7d, distinct_cards_30d, login_velocity
Temporal features	6	hour_of_day, day_of_week, days_since_last_payment
Derived ratios	5	failed_to_success_ratio, amount_vs_account_median

Size: 12.4M payment attempts, 55 features
Target: is_fraud — chargeback or confirmed payment abuse within 14 days
Class balance: 1.6% positive, 98.4% negative
Missing data: 8% missing in issuer/card metadata, 3% missing in account aggregates for new users

Success Criteria

Constraints

Daily retraining budget is limited to a single 16-core CPU machine; GPU is not guaranteed.
Batch scoring latency is not critical, but training turnaround is.
The risk team needs feature importance and a reproducible pipeline.
Avoid leakage from future chargeback labels or post-authorization events.

Deliverables

Propose a training strategy that optimizes time-to-result, not just final offline score.
Build a baseline and at least one accelerated training approach.
Justify sampling, feature reduction, and hyperparameter search choices.
Evaluate quality vs runtime tradeoffs using a time-based validation setup.
Recommend what should ship to production and how often it should retrain.

Business Context

Dataset

You are given a tabular binary classification dataset built from 90 days of payment attempts and account activity.

Feature Group	Count	Examples
Transaction features	18	amount_usd, card_bin_risk_score, issuer_country, retry_count
Account features	12	account_age_days, prior_chargebacks, org_size, payment_method_count
Behavioral aggregates	14	failed_payments_1d, spend_7d, distinct_cards_30d, login_velocity
Temporal features	6	hour_of_day, day_of_week, days_since_last_payment
Derived ratios	5	failed_to_success_ratio, amount_vs_account_median

Size: 12.4M payment attempts, 55 features
Target: is_fraud — chargeback or confirmed payment abuse within 14 days
Class balance: 1.6% positive, 98.4% negative
Missing data: 8% missing in issuer/card metadata, 3% missing in account aggregates for new users

Success Criteria

Constraints

Daily retraining budget is limited to a single 16-core CPU machine; GPU is not guaranteed.
Batch scoring latency is not critical, but training turnaround is.
The risk team needs feature importance and a reproducible pipeline.
Avoid leakage from future chargeback labels or post-authorization events.

Deliverables

Propose a training strategy that optimizes time-to-result, not just final offline score.
Build a baseline and at least one accelerated training approach.
Justify sampling, feature reduction, and hyperparameter search choices.
Evaluate quality vs runtime tradeoffs using a time-based validation setup.
Recommend what should ship to production and how often it should retrain.

Interview Guides

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Accelerate Fraud Model Training Runs

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Your Answer

Accelerate Fraud Model Training Runs

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Accelerate Fraud Model Training Runs

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Your Answer