• B选项: 这是生存分析在预测问题中的核心痛点。如果一台机器运行了5分钟用户关机了(Label=0),这并不代表它“安全”;如果用户不关机,第6分钟它可能就会因为资源不足被回收。将删失数据直接视为负样本,会让模型误以为具备“易被用户关闭”特征的机器也是“系统不回收”的,从而在资源紧张时低估风险。
• A选项: 这是一个非常合理的工程担忧。剔除样本确实会改变分布,但相比于B选项的标签定义逻辑错误,A选项只是泛化能力的问题,不是最核心的“隐患”。
• C选项: 多分类听起来很高级,但业务目标是“预测未来1小时内是否会被强收”,这是一个二元风险问题。将“正常释放”作为独立类别并不能解决“如果他不释放,会不会被强收”这个反事实(Counterfactual)问题。
• D选项: 这是一个时间序列常见问题,但在本题背景下,Label确实就是基于最终结果定义的,只要特征只取预测时刻之前的数据,就不存在Look-ahead Bias。