考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

你所在的团队负责某大型公有云平台的“竞价实例(Spot Instances)”智能调度系统。竞价实例允许用户以大幅折扣(通常为按需价格的10%-20%)购买闲置算力,但云平台保留在资源紧张时强制回收(Pre-empt)这些实例的权利。 为了降低用户的使用风险并优化平台的资源利用率,团队需要构建一个“实例中断概率预测模型”。 ##### 输入数据: - 集群状态数据:过去30天的集群CPU/内存水位、历史供需曲线(分钟级)。 - 用户画像数据:用户历史出价行为、作业类型(Web服务/离线计算)、历史续费率、所属行业。 - 实例特征:实例规格(如8核16G)、所在的可用区(AZ)、运行时长。 - o 预测目标:预测当前运行的实例在未来1小时内是否会被系统强制回收(Binary Classification)。 ##### 业务约束: 1. 极度不平衡:实际发生强制回收的概率极低(约1%),样本极度不平衡。 2. 非对称成本:如果模型漏报(FN),导致用户作业运行中途被杀且无预警,平台需支付高额SLA赔偿且严重损害商誉;如果模型误报(FP),导致用户提前迁移作业,仅造成少量的计算成本浪费。 3. 时效性:模型需支持近实时推断。 (3)鉴于正负样本比例约为1:100,且业务痛点在于“宁可误报不可漏报”(漏报导致SLA赔偿,成本极高)。团队决定使用XGBoost模型。在不进行过采样/欠采样(Resampling)操作的前提下,仅通过调整目标函数(Objective Function)或权重配置来应对,以下方案最合理的是:
A. 将目标函数改为Mean Squared Error (MSE),因为回归对不平衡数据的敏感度低于分类损失。
B. 保持LogLoss不变,但在训练参数中设置 scale_pos_weight(正样本权重)为100,同时在评估时重点关注Recall。
C. 自定义损失函数,使用Focal Loss,并将聚焦参数 \gamma 设置为0,以减少易分类样本的权重。
D. 引入L1正则化,强行将负样本的特征权重压缩为0,从而突出正样本特征。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

本题考察不平衡分类与代价敏感学习(Cost-Sensitive Learning)。 • B选项(正确):XGBoost中的 scale_pos_weight 参数正是为了解决类别不平衡设计的。将其设置为 负样本数/正样本数(本题中约为100),可以显着增加模型对正类(中断)的惩罚力度,迫使模型更关注少数类,直接对应“宁可误报不可漏报”的业务需求。 • A选项:分类问题用MSE效果通常不如LogLoss,且MSE不能解决不平衡问题。 • C选项:Focal Loss的核心是 \gamma > 0(通常取2),用于降低简单样本的权重。如果 \gamma=0,Focal Loss退化为标准的Cross Entropy Loss,失去了挖掘难分样本的能力。 • D选项:L1正则化是用于特征选择的,无法解决样本标签不平衡的问题。