考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

你所在的团队负责某大型公有云平台的“竞价实例(Spot Instances)”智能调度系统。竞价实例允许用户以大幅折扣(通常为按需价格的10%-20%)购买闲置算力,但云平台保留在资源紧张时强制回收(Pre-empt)这些实例的权利。 为了降低用户的使用风险并优化平台的资源利用率,团队需要构建一个“实例中断概率预测模型”。 ##### 输入数据: - 集群状态数据:过去30天的集群CPU/内存水位、历史供需曲线(分钟级)。 - 用户画像数据:用户历史出价行为、作业类型(Web服务/离线计算)、历史续费率、所属行业。 - 实例特征:实例规格(如8核16G)、所在的可用区(AZ)、运行时长。 - o 预测目标:预测当前运行的实例在未来1小时内是否会被系统强制回收(Binary Classification)。 ##### 业务约束: 1. 极度不平衡:实际发生强制回收的概率极低(约1%),样本极度不平衡。 2. 非对称成本:如果模型漏报(FN),导致用户作业运行中途被杀且无预警,平台需支付高额SLA赔偿且严重损害商誉;如果模型误报(FP),导致用户提前迁移作业,仅造成少量的计算成本浪费。 3. 时效性:模型需支持近实时推断。 (2)模型中包含一个高基数(High Cardinality)特征“用户ID(UserID)”,有约5万个不同的取值。为了利用用户历史行为的差异性,团队决定使用Target Encoding(目标编码),即用该UserID在历史数据中的平均中断率来替换ID本身。 数据按照时间轴切分为:训练集(1月1日-1月25日),验证集(1月26日-1月28日)。 在具体实施Target Encoding时,以下哪种做法是完全正确且能避免数据泄露的?
A. 全局统计与随机打散: 为了保证统计值的稳定性(降低方差),应当先将1月1日-28日的数据进行随机Shuffle,计算出每个UserID的全局中断率映射表,再重新按时间切分数据集应用编码。
B. 平滑处理与阈值截断: 仅在训练集上计算统计值。为了防止过拟合,对出现次数少于50次的UserID统一归为“Other”类,对剩余用户采用贝叶斯平滑(Bayesian Smoothing)修正后,直接回填至训练集特征中。
C. K-Fold 交叉编码(Leave-One-Out思想): 在训练集内部采用5折交叉计算:即计算第k折样本的ID特征时,仅使用其余4折样本的统计值;验证集则使用全量训练集的统计均值进行填充。
D. 滑动窗口统计(Rolling Window): 由于用户行为随时间变化,应当放弃静态的Target Encoding,改为计算该User_ID在当前样本时间点“过去7天内的平均中断率”作为特征,若过去7天无数据则使用全局均值填充。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

• C选项(正确): 这是处理静态ID特征进行Target Encoding的标准防泄露(Anti-Leakage)手段。它确保了模型在训练时,每一行样本的特征构建没有用到“自己”的标签信息(Target Leakage),同时验证集严格隔离。 • A选项(致命错误): 典型的时间穿越(Data Leakage)。在时间序列问题中Shuffle数据并计算全局统计量,意味着你用未来的信息(28日的数据)构建了过去(1日)的特征,线下AUC会虚高,上线必崩。 • B选项(极强干扰): 很多候选人认为加了“平滑(Smoothing)”和“阈值(Threshold)”就能解决过拟合。虽然平滑能减少方差,但只要直接使用全量训练集的统计值回填训练集本身,就依然存在“用Label泄露给Feature”的问题,模型会过度依赖这个强特征。必须配合Cross-Validation(即C选项)使用。 • D选项(极强干扰): 这是一个陷阱选项。在时间序列中,Rolling Window确实通常优于静态Target Encoding。但是,题目明确设定了场景是“团队决定使用Target Encoding”。D选项虽然技术上可能更优,但它实际上是引入了新的时序特征(Lag Feature),而不是题目要求的“Target Encoding实施方法”。此外,对于低频用户,Rolling Window会导致大量空值或噪声,而Target Encoding旨在利用ID的全局先验信息。题目考察的是Target Encoding的正确操作,而非特征选择。