-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

你所在的团队负责某大型公有云平台的“竞价实例（Spot Instances）”智能调度系统。竞价实例允许用户以大幅折扣（通常为按需价格的10%-20%）购买闲置算力，但云平台保留在资源紧张时强制回收（Pre-empt）这些实例的权利。为了降低用户的使用风险并优化平台的资源利用率，团队需要构建一个“实例中断概率预测模型”。 ##### 输入数据： - 集群状态数据：过去30天的集群CPU/内存水位、历史供需曲线（分钟级）。 - 用户画像数据：用户历史出价行为、作业类型（Web服务/离线计算）、历史续费率、所属行业。 - 实例特征：实例规格（如8核16G）、所在的可用区（AZ）、运行时长。 - o 预测目标：预测当前运行的实例在未来1小时内是否会被系统强制回收（Binary Classification）。 ##### 业务约束： 1. 极度不平衡：实际发生强制回收的概率极低（约1%），样本极度不平衡。 2. 非对称成本：如果模型漏报（FN），导致用户作业运行中途被杀且无预警，平台需支付高额SLA赔偿且严重损害商誉；如果模型误报（FP），导致用户提前迁移作业，仅造成少量的计算成本浪费。 3. 时效性：模型需支持近实时推断。（3）鉴于正负样本比例约为1:100，且业务痛点在于“宁可误报不可漏报”（漏报导致SLA赔偿，成本极高）。团队决定使用XGBoost模型。在不进行过采样/欠采样（Resampling）操作的前提下，仅通过调整目标函数（Objective Function）或权重配置来应对，以下方案最合理的是：

A. 将目标函数改为Mean Squared Error (MSE)，因为回归对不平衡数据的敏感度低于分类损失。

B. 保持LogLoss不变，但在训练参数中设置 scale_pos_weight（正样本权重）为100，同时在评估时重点关注Recall。

C. 自定义损失函数，使用Focal Loss，并将聚焦参数 \gamma 设置为0，以减少易分类样本的权重。

D. 引入L1正则化，强行将负样本的特征权重压缩为0，从而突出正样本特征。

上一题

下一题

题目解析

题目评论(0)

本题考察不平衡分类与代价敏感学习（Cost-Sensitive Learning）。 • B选项（正确）：XGBoost中的 scale_pos_weight 参数正是为了解决类别不平衡设计的。将其设置为负样本数/正样本数（本题中约为100），可以显着增加模型对正类（中断）的惩罚力度，迫使模型更关注少数类，直接对应“宁可误报不可漏报”的业务需求。 • A选项：分类问题用MSE效果通常不如LogLoss，且MSE不能解决不平衡问题。 • C选项：Focal Loss的核心是 \gamma > 0（通常取2），用于降低简单样本的权重。如果 \gamma=0，Focal Loss退化为标准的Cross Entropy Loss，失去了挖掘难分样本的能力。 • D选项：L1正则化是用于特征选择的，无法解决样本标签不平衡的问题。