考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

你所在的电商平台“TechMall”即将举行年度最大的“超级品牌日”活动,核心引流项目是“53度飞天茅台1499元整点秒杀”。由于商品存在巨大的二级市场价差,该活动吸引了大量“黑产”(羊毛党、机器脚本、群控设备)进行抢购。 业务痛点: 1. 极度不平衡与标签缺失:在数千万次请求中,只有极少数是真正的黑产攻击,且平台只能确认部分被投诉的账号是黑产(Positive),以及部分长期高活的忠实用户是正常(Negative),海量中间用户的性质是未知的(Unlabeled)。 2. 高并发低时延:秒杀开启瞬间QPS(每秒查询率)破十万,风控模型必须在20ms内返回拦截决策。 3. 对抗性强:黑产会不断变换IP、设备指纹、UA等特征来绕过规则。 4. 误杀成本高:如果误拦截了平台的高价值VIP用户,会导致严重的客诉和品牌舆情危机。 数据团队决定构建一套基于实时行为序列与 LightGBM+LSTM 的模型。请基于此背景回答以下5道题。 (1)在构建训练集时,团队面临严重的“标签不完全”问题。目前数据库中仅有少量确定的黑产样本(P集合)和少量确定的白名单用户样本(N集合),其余95%的流量数据均为未标记样本(U集合)。初级分析师小李直接将P视为正例,将N ∪U全部视为负例进行训练,结果发现模型在离线测试集上表现尚可,但在实际线上拦截时,大量并未作弊的普通“手残党”被误判为黑产。 为了改善样本分布偏差带来的泛化性问题,以下哪种策略最适合当前的业务场景?
A. 对P集合进行SMOTE过采样,以平衡正负样本比例,强制模型关注黑产特征。
B. 训练一个初始分类器 f1 区分 P 和 U,将 U 中被 f1 高概率预测为正的样本剔除,剩余的作为可靠负样本(Reliable Negatives)进行迭代训练。
C. 仅使用 P 和 N 集合训练模型,直接忽略 U 集合,以保证梯度的纯净性。
D. 将 U 集合视为负样本,引入 Focal Loss 机制,重点增加 U 中那些“难以分类样本”(Hard Negatives)的权重,迫使模型攻克分类边界。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

本题考察半监督学习中的样本偏差处理。 • A选项:错误。问题不在于数量不平衡,而在于标签噪声(Label Noise)。将未标记的U直接视为负例(Negative),会把潜在的未被发现的黑产强行标记为好人,模型会学习到错误的决策边界,导致模型“只认识已知的坏人,把未知坏人当好人”或“把像坏人的好人误杀”。 • B选项:正确。这是典型的 "Two-step PU Learning" 或 "Spy" 技术。先通过简单模型筛选出U中“最不像黑产”的部分作为可靠负样本(Reliable Negatives, RN),再利用 P 和 RN 训练最终分类器。这能有效利用大量未标记数据中的信息,同时降低噪声干扰。 • C选项:错误。丢弃95%的数据会丢失大量关于数据分布的信息,导致模型泛化能力极差,容易过拟合。 • D选项:错误。在此场景下,U 中混杂着真实的黑产(Hidden Positives)。如果模型变聪明了,它会觉得这些 Hidden Positives 很像黑产(预测概率偏高)。此时,如果我们把 U 强行视为负例,这些样本就变成了“预测是正,标签是负”的Hard Negatives(困难负样本)。结果就是:模型越是正确地把潜藏黑产识别出来,算法就越是狠狠地惩罚它,强迫模型把这些潜藏黑产当作好人。这直接导致模型被“毒化”,学习到了错误的特征分布。