考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

你所在的电商平台“TechMall”即将举行年度最大的“超级品牌日”活动,核心引流项目是“53度飞天茅台1499元整点秒杀”。由于商品存在巨大的二级市场价差,该活动吸引了大量“黑产”(羊毛党、机器脚本、群控设备)进行抢购。 业务痛点: 1. 极度不平衡与标签缺失:在数千万次请求中,只有极少数是真正的黑产攻击,且平台只能确认部分被投诉的账号是黑产(Positive),以及部分长期高活的忠实用户是正常(Negative),海量中间用户的性质是未知的(Unlabeled)。 2. 高并发低时延:秒杀开启瞬间QPS(每秒查询率)破十万,风控模型必须在20ms内返回拦截决策。 3. 对抗性强:黑产会不断变换IP、设备指纹、UA等特征来绕过规则。 4. 误杀成本高:如果误拦截了平台的高价值VIP用户,会导致严重的客诉和品牌舆情危机。 数据团队决定构建一套基于实时行为序列与 LightGBM+LSTM 的模型。请基于此背景回答以下5道题。 (2)为了捕捉用户在秒杀前的“养号”或“脚本预热”行为,团队决定引入实时行为序列特征。特征工程师构建了以下一组特征,准备输入到LSTM模型中进行训练。在代码评审(Code Review)阶段,作为Tech Lead的你必须指出其中存在“未来信息泄露”(Look-ahead Bias) 的特征,否则会导致模型线上崩塌。请找出该特征:
A. time_since_last_login: 用户本次请求时间与上一次登录时间的差值。
B. device_ip_click_count_1h: 该设备关联的IP在过去1小时内的总点击次数(利用滑动时间窗口计算)。
C. session_avg_dwell_time: 该用户在当前会话(Session) 中所有页面停留时间的平均值。
D. s_new_device: 当前设备ID是否在过去30天的历史记录中出现过。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

本题考察实时流式特征构建中的时序逻辑。 • A、B、D选项:都是基于“当前时刻之前”的历史数据计算的,符合因果逻辑,线上推理时可以获取。 • C选项:正确(即存在泄露)。“当前会话的平均停留时间”通常需要在会话结束(Session End)后才能计算出最终的平均值。如果在秒杀发生的瞬间(时刻 t)进行预测,你只能获取到 t 之前的停留时间,而无法获取 t 之后直到会话结束的数据。如果在离线训练时使用了包含 t 之后数据的统计值(全Session统计),就是典型的未来信息泄露。模型利用了未来的信息预测现在,离线指标会虚高,上线后因拿不到完整Session数据而失效。