Classify Malicious PKI Certificates

Business Context

TrustShield, a certificate intelligence vendor, scans public TLS certificates and internal enterprise PKI logs to detect suspicious certificate issuance. The security team wants a binary classifier that flags potentially malicious or misissued certificates for analyst review before they are trusted by downstream systems.

Dataset

The training data combines Certificate Transparency logs, enterprise CA issuance records, and analyst labels from prior investigations.

Feature Group	Count	Examples
Certificate metadata	14	validity_days, key_size, signature_algorithm, is_ca, path_length
Subject / issuer fields	11	subject_country, issuer_org, wildcard_count, san_count
Behavioral / historical	9	issuer_cert_volume_7d, domain_age_days, prior_revocations, reuse_of_subject
Trust / policy signals	8	has_ev_policy, ocsp_enabled, crl_present, self_signed
Temporal features	6	issuance_hour, day_of_week, days_to_expiry_at_scan

Size: 420K certificates, 48 engineered features
Target: Binary — suspicious certificate (1) vs normal certificate (0)
Class balance: 6.5% positive, 93.5% negative
Missing data: 18% missing in domain_age and WHOIS-derived fields, 7% missing in some issuer metadata for legacy internal CAs

Success Criteria

A solution is considered good enough if it achieves PR-AUC >= 0.55, recall >= 0.80 at precision >= 0.35, and produces feature-level explanations usable by security analysts.

Constraints

Batch scoring must complete in under 10 minutes for 1M certificates/day.
Analysts need interpretable reasons for flags.
False negatives are costly, but analyst review capacity limits false positives.
The model should be retrained monthly because issuer behavior changes over time.

Deliverables

Build a binary classification pipeline for suspicious certificate detection.
Explain model choice, feature engineering, and imbalance handling.
Evaluate with metrics appropriate for imbalanced security data.
Propose a thresholding strategy for analyst review queues.
Describe how you would deploy, monitor, and retrain the model safely.

Business Context

Dataset

The training data combines Certificate Transparency logs, enterprise CA issuance records, and analyst labels from prior investigations.

Feature Group	Count	Examples
Certificate metadata	14	validity_days, key_size, signature_algorithm, is_ca, path_length
Subject / issuer fields	11	subject_country, issuer_org, wildcard_count, san_count
Behavioral / historical	9	issuer_cert_volume_7d, domain_age_days, prior_revocations, reuse_of_subject
Trust / policy signals	8	has_ev_policy, ocsp_enabled, crl_present, self_signed
Temporal features	6	issuance_hour, day_of_week, days_to_expiry_at_scan

Size: 420K certificates, 48 engineered features
Target: Binary — suspicious certificate (1) vs normal certificate (0)
Class balance: 6.5% positive, 93.5% negative
Missing data: 18% missing in domain_age and WHOIS-derived fields, 7% missing in some issuer metadata for legacy internal CAs

Success Criteria

A solution is considered good enough if it achieves PR-AUC >= 0.55, recall >= 0.80 at precision >= 0.35, and produces feature-level explanations usable by security analysts.

Constraints

Batch scoring must complete in under 10 minutes for 1M certificates/day.
Analysts need interpretable reasons for flags.
False negatives are costly, but analyst review capacity limits false positives.
The model should be retrained monthly because issuer behavior changes over time.

Deliverables

Build a binary classification pipeline for suspicious certificate detection.
Explain model choice, feature engineering, and imbalance handling.
Evaluate with metrics appropriate for imbalanced security data.
Propose a thresholding strategy for analyst review queues.
Describe how you would deploy, monitor, and retrain the model safely.

Business Context

Dataset

The training data combines Certificate Transparency logs, enterprise CA issuance records, and analyst labels from prior investigations.

Feature Group	Count	Examples
Certificate metadata	14	validity_days, key_size, signature_algorithm, is_ca, path_length
Subject / issuer fields	11	subject_country, issuer_org, wildcard_count, san_count
Behavioral / historical	9	issuer_cert_volume_7d, domain_age_days, prior_revocations, reuse_of_subject
Trust / policy signals	8	has_ev_policy, ocsp_enabled, crl_present, self_signed
Temporal features	6	issuance_hour, day_of_week, days_to_expiry_at_scan

Size: 420K certificates, 48 engineered features
Target: Binary — suspicious certificate (1) vs normal certificate (0)
Class balance: 6.5% positive, 93.5% negative
Missing data: 18% missing in domain_age and WHOIS-derived fields, 7% missing in some issuer metadata for legacy internal CAs

Success Criteria

A solution is considered good enough if it achieves PR-AUC >= 0.55, recall >= 0.80 at precision >= 0.35, and produces feature-level explanations usable by security analysts.

Constraints

Batch scoring must complete in under 10 minutes for 1M certificates/day.
Analysts need interpretable reasons for flags.
False negatives are costly, but analyst review capacity limits false positives.
The model should be retrained monthly because issuer behavior changes over time.

Deliverables

Build a binary classification pipeline for suspicious certificate detection.
Explain model choice, feature engineering, and imbalance handling.
Evaluate with metrics appropriate for imbalanced security data.
Propose a thresholding strategy for analyst review queues.
Describe how you would deploy, monitor, and retrain the model safely.

Business Context

Dataset

The training data combines Certificate Transparency logs, enterprise CA issuance records, and analyst labels from prior investigations.

Feature Group	Count	Examples
Certificate metadata	14	validity_days, key_size, signature_algorithm, is_ca, path_length
Subject / issuer fields	11	subject_country, issuer_org, wildcard_count, san_count
Behavioral / historical	9	issuer_cert_volume_7d, domain_age_days, prior_revocations, reuse_of_subject
Trust / policy signals	8	has_ev_policy, ocsp_enabled, crl_present, self_signed
Temporal features	6	issuance_hour, day_of_week, days_to_expiry_at_scan

Size: 420K certificates, 48 engineered features
Target: Binary — suspicious certificate (1) vs normal certificate (0)
Class balance: 6.5% positive, 93.5% negative
Missing data: 18% missing in domain_age and WHOIS-derived fields, 7% missing in some issuer metadata for legacy internal CAs

Success Criteria

A solution is considered good enough if it achieves PR-AUC >= 0.55, recall >= 0.80 at precision >= 0.35, and produces feature-level explanations usable by security analysts.

Constraints

Batch scoring must complete in under 10 minutes for 1M certificates/day.
Analysts need interpretable reasons for flags.
False negatives are costly, but analyst review capacity limits false positives.
The model should be retrained monthly because issuer behavior changes over time.

Deliverables

Build a binary classification pipeline for suspicious certificate detection.
Explain model choice, feature engineering, and imbalance handling.
Evaluate with metrics appropriate for imbalanced security data.
Propose a thresholding strategy for analyst review queues.
Describe how you would deploy, monitor, and retrain the model safely.

Interview Guides

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Classify Malicious PKI Certificates

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Your Answer

Classify Malicious PKI Certificates

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Classify Malicious PKI Certificates

Business Context

Dataset

Success Criteria

Constraints

Deliverables

Your Answer