• C选项(正确): 这是处理静态ID特征进行Target Encoding的标准防泄露(Anti-Leakage)手段。它确保了模型在训练时,每一行样本的特征构建没有用到“自己”的标签信息(Target Leakage),同时验证集严格隔离。
• A选项(致命错误): 典型的时间穿越(Data Leakage)。在时间序列问题中Shuffle数据并计算全局统计量,意味着你用未来的信息(28日的数据)构建了过去(1日)的特征,线下AUC会虚高,上线必崩。
• B选项(极强干扰): 很多候选人认为加了“平滑(Smoothing)”和“阈值(Threshold)”就能解决过拟合。虽然平滑能减少方差,但只要直接使用全量训练集的统计值回填训练集本身,就依然存在“用Label泄露给Feature”的问题,模型会过度依赖这个强特征。必须配合Cross-Validation(即C选项)使用。
• D选项(极强干扰): 这是一个陷阱选项。在时间序列中,Rolling Window确实通常优于静态Target Encoding。但是,题目明确设定了场景是“团队决定使用Target Encoding”。D选项虽然技术上可能更优,但它实际上是引入了新的时序特征(Lag Feature),而不是题目要求的“Target Encoding实施方法”。此外,对于低频用户,Rolling Window会导致大量空值或噪声,而Target Encoding旨在利用ID的全局先验信息。题目考察的是Target Encoding的正确操作,而非特征选择。