本题考察实时流式特征构建中的时序逻辑。
• A、B、D选项:都是基于“当前时刻之前”的历史数据计算的,符合因果逻辑,线上推理时可以获取。
• C选项:正确(即存在泄露)。“当前会话的平均停留时间”通常需要在会话结束(Session End)后才能计算出最终的平均值。如果在秒杀发生的瞬间(时刻 t)进行预测,你只能获取到 t 之前的停留时间,而无法获取 t 之后直到会话结束的数据。如果在离线训练时使用了包含 t 之后数据的统计值(全Session统计),就是典型的未来信息泄露。模型利用了未来的信息预测现在,离线指标会虚高,上线后因拿不到完整Session数据而失效。