-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

你所在的团队负责某大型公有云平台的“竞价实例（Spot Instances）”智能调度系统。竞价实例允许用户以大幅折扣（通常为按需价格的10%-20%）购买闲置算力，但云平台保留在资源紧张时强制回收（Pre-empt）这些实例的权利。为了降低用户的使用风险并优化平台的资源利用率，团队需要构建一个“实例中断概率预测模型”。 ##### 输入数据： - 集群状态数据：过去30天的集群CPU/内存水位、历史供需曲线（分钟级）。 - 用户画像数据：用户历史出价行为、作业类型（Web服务/离线计算）、历史续费率、所属行业。 - 实例特征：实例规格（如8核16G）、所在的可用区（AZ）、运行时长。 - o 预测目标：预测当前运行的实例在未来1小时内是否会被系统强制回收（Binary Classification）。 ##### 业务约束： 1. 极度不平衡：实际发生强制回收的概率极低（约1%），样本极度不平衡。 2. 非对称成本：如果模型漏报（FN），导致用户作业运行中途被杀且无预警，平台需支付高额SLA赔偿且严重损害商誉；如果模型误报（FP），导致用户提前迁移作业，仅造成少量的计算成本浪费。 3. 时效性：模型需支持近实时推断。（1）在构建训练集时，团队发现原始日志中记录的“实例结束”包含两种情况：一种是用户主动发起的“正常释放（Terminate）”，另一种是由于资源不足触发的“系统强制回收（Pre-empt）”。统计发现，大量长尾用户的实例生命周期极短（<10分钟），且大多是正常释放。实习生建议直接将“系统强制回收”标记为正样本（Label=1），“正常释放”标记为负样本（Label=0），并剔除运行时长小于10分钟的样本以减少噪声。作为技术负责人，你认为这种处理方式存在最严重的隐患是什么？

A. 样本偏差：剔除短时长样本破坏了训练数据的真实分布，导致模型在推断阶段面对短任务时出现严重的训练-预测偏差，无法准确预估短任务风险。

B. 竞争风险：将“正常释放”简单视为负样本存在严重偏差。用户主动释放属于“右删失（Right Censored）”数据，它掩盖了该实例在同一时间窗口内可能面临的被回收风险，导致模型系统性低估高负载下的回收概率。

C. 分类目标混淆： “正常释放”与“系统回收”本质上是两种不同的业务行为，应当构建多分类模型（0=运行中，1=正常释放，2=系统回收），直接做二分类会引入标签噪声，导致决策边界模糊。

D. 前视偏差：日志记录的“实例结束”是事后结果，而预测是在实例运行时进行的。直接依赖结束状态做标签，忽略了“资源水位上升”到“触发回收”之间的时间滞后性，会导致特征与标签在时间轴上错位。

上一题

下一题

题目解析

题目评论(0)

• B选项：这是生存分析在预测问题中的核心痛点。如果一台机器运行了5分钟用户关机了（Label=0），这并不代表它“安全”；如果用户不关机，第6分钟它可能就会因为资源不足被回收。将删失数据直接视为负样本，会让模型误以为具备“易被用户关闭”特征的机器也是“系统不回收”的，从而在资源紧张时低估风险。 • A选项：这是一个非常合理的工程担忧。剔除样本确实会改变分布，但相比于B选项的标签定义逻辑错误，A选项只是泛化能力的问题，不是最核心的“隐患”。 • C选项：多分类听起来很高级，但业务目标是“预测未来1小时内是否会被强收”，这是一个二元风险问题。将“正常释放”作为独立类别并不能解决“如果他不释放，会不会被强收”这个反事实（Counterfactual）问题。 • D选项：这是一个时间序列常见问题，但在本题背景下，Label确实就是基于最终结果定义的，只要特征只取预测时刻之前的数据，就不存在Look-ahead Bias。