Triage Medical Diagnoses from Clinical Data

Business Context

MediScan Health operates urgent-care clinics that process roughly 12,000 patient visits per week. The clinical operations team wants a machine learning model that flags whether a patient is likely to have a target condition (for example, pneumonia) using structured intake, vitals, lab results, and symptom data to support physician triage—not replace clinical judgment.

Dataset

You are given a historical supervised learning dataset built from prior visits with confirmed diagnoses.

Feature Group	Count	Examples
Demographics	5	age, sex, BMI, smoking_status, pregnancy_flag
Vitals	8	temperature, heart_rate, respiratory_rate, systolic_bp, oxygen_saturation
Labs	12	WBC, CRP, hemoglobin, platelet_count, sodium, creatinine
Symptoms / history	10	cough, fever_duration_days, chest_pain, shortness_of_breath, asthma_history
Visit context	5	clinic_id, visit_hour, season, referral_source, prior_admissions_12m

Rows: 148,000 patient visits collected over 24 months
Target: Binary label indicating confirmed diagnosis of the target condition within 48 hours
Class balance: 14% positive, 86% negative
Missing data: ~18% missing in lab features because not all tests are ordered; <3% missing in vitals and symptoms
Data quality note: Multiple visits from the same patient may exist, so leakage must be avoided

Success Criteria

A good solution should achieve strong recall for true positive cases while keeping false alarms manageable for clinicians. Target performance is recall >= 0.85, precision >= 0.45, and ROC-AUC >= 0.88 on a held-out test set.

Constraints

Predictions must be returned in <100 ms per patient in the triage application
The model must be explainable enough for clinical review
Training should use only structured tabular data
The solution must minimize patient-level leakage across splits

Deliverables

Build a binary classification pipeline for automated diagnostic triage.
Explain model choice, preprocessing, and leakage prevention.
Evaluate the model with clinically relevant metrics and threshold tuning.
Provide feature importance or explanation outputs suitable for review.
Describe how you would deploy and monitor the model in production.

Business Context

Dataset

You are given a historical supervised learning dataset built from prior visits with confirmed diagnoses.

Feature Group	Count	Examples
Demographics	5	age, sex, BMI, smoking_status, pregnancy_flag
Vitals	8	temperature, heart_rate, respiratory_rate, systolic_bp, oxygen_saturation
Labs	12	WBC, CRP, hemoglobin, platelet_count, sodium, creatinine
Symptoms / history	10	cough, fever_duration_days, chest_pain, shortness_of_breath, asthma_history
Visit context	5	clinic_id, visit_hour, season, referral_source, prior_admissions_12m

Rows: 148,000 patient visits collected over 24 months
Target: Binary label indicating confirmed diagnosis of the target condition within 48 hours
Class balance: 14% positive, 86% negative
Missing data: ~18% missing in lab features because not all tests are ordered; <3% missing in vitals and symptoms
Data quality note: Multiple visits from the same patient may exist, so leakage must be avoided

Success Criteria

Constraints

Predictions must be returned in <100 ms per patient in the triage application
The model must be explainable enough for clinical review
Training should use only structured tabular data
The solution must minimize patient-level leakage across splits

Deliverables

Build a binary classification pipeline for automated diagnostic triage.
Explain model choice, preprocessing, and leakage prevention.
Evaluate the model with clinically relevant metrics and threshold tuning.
Provide feature importance or explanation outputs suitable for review.
Describe how you would deploy and monitor the model in production.

Business Context

Dataset

You are given a historical supervised learning dataset built from prior visits with confirmed diagnoses.

Feature Group	Count	Examples
Demographics	5	age, sex, BMI, smoking_status, pregnancy_flag
Vitals	8	temperature, heart_rate, respiratory_rate, systolic_bp, oxygen_saturation
Labs	12	WBC, CRP, hemoglobin, platelet_count, sodium, creatinine
Symptoms / history	10	cough, fever_duration_days, chest_pain, shortness_of_breath, asthma_history
Visit context	5	clinic_id, visit_hour, season, referral_source, prior_admissions_12m

Rows: 148,000 patient visits collected over 24 months
Target: Binary label indicating confirmed diagnosis of the target condition within 48 hours
Class balance: 14% positive, 86% negative
Missing data: ~18% missing in lab features because not all tests are ordered; <3% missing in vitals and symptoms
Data quality note: Multiple visits from the same patient may exist, so leakage must be avoided

Success Criteria

Constraints

Predictions must be returned in <100 ms per patient in the triage application
The model must be explainable enough for clinical review
Training should use only structured tabular data
The solution must minimize patient-level leakage across splits

Deliverables

Build a binary classification pipeline for automated diagnostic triage.
Explain model choice, preprocessing, and leakage prevention.
Evaluate the model with clinically relevant metrics and threshold tuning.
Provide feature importance or explanation outputs suitable for review.
Describe how you would deploy and monitor the model in production.

Business Context

Dataset

You are given a historical supervised learning dataset built from prior visits with confirmed diagnoses.

Feature Group	Count	Examples
Demographics	5	age, sex, BMI, smoking_status, pregnancy_flag
Vitals	8	temperature, heart_rate, respiratory_rate, systolic_bp, oxygen_saturation
Labs	12	WBC, CRP, hemoglobin, platelet_count, sodium, creatinine
Symptoms / history	10	cough, fever_duration_days, chest_pain, shortness_of_breath, asthma_history
Visit context	5	clinic_id, visit_hour, season, referral_source, prior_admissions_12m

Rows: 148,000 patient visits collected over 24 months
Target: Binary label indicating confirmed diagnosis of the target condition within 48 hours
Class balance: 14% positive, 86% negative
Missing data: ~18% missing in lab features because not all tests are ordered; <3% missing in vitals and symptoms
Data quality note: Multiple visits from the same patient may exist, so leakage must be avoided

Success Criteria

Constraints

Predictions must be returned in <100 ms per patient in the triage application
The model must be explainable enough for clinical review
Training should use only structured tabular data
The solution must minimize patient-level leakage across splits

Deliverables

Build a binary classification pipeline for automated diagnostic triage.
Explain model choice, preprocessing, and leakage prevention.
Evaluate the model with clinically relevant metrics and threshold tuning.
Provide feature importance or explanation outputs suitable for review.
Describe how you would deploy and monitor the model in production.

Interview Guides

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Triage Medical Diagnoses from Clinical Data

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Your Answer

Triage Medical Diagnoses from Clinical Data

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Triage Medical Diagnoses from Clinical Data

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Your Answer