-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

你所在的电商平台“TechMall”即将举行年度最大的“超级品牌日”活动，核心引流项目是“53度飞天茅台1499元整点秒杀”。由于商品存在巨大的二级市场价差，该活动吸引了大量“黑产”（羊毛党、机器脚本、群控设备）进行抢购。业务痛点： 1. 极度不平衡与标签缺失：在数千万次请求中，只有极少数是真正的黑产攻击，且平台只能确认部分被投诉的账号是黑产（Positive），以及部分长期高活的忠实用户是正常（Negative），海量中间用户的性质是未知的（Unlabeled）。 2. 高并发低时延：秒杀开启瞬间QPS（每秒查询率）破十万，风控模型必须在20ms内返回拦截决策。 3. 对抗性强：黑产会不断变换IP、设备指纹、UA等特征来绕过规则。 4. 误杀成本高：如果误拦截了平台的高价值VIP用户，会导致严重的客诉和品牌舆情危机。数据团队决定构建一套基于实时行为序列与 LightGBM+LSTM 的模型。请基于此背景回答以下5道题。 (1)在构建训练集时，团队面临严重的“标签不完全”问题。目前数据库中仅有少量确定的黑产样本（P集合）和少量确定的白名单用户样本（N集合），其余95%的流量数据均为未标记样本（U集合）。初级分析师小李直接将P视为正例，将N ∪U全部视为负例进行训练，结果发现模型在离线测试集上表现尚可，但在实际线上拦截时，大量并未作弊的普通“手残党”被误判为黑产。为了改善样本分布偏差带来的泛化性问题，以下哪种策略最适合当前的业务场景？

A. 对P集合进行SMOTE过采样，以平衡正负样本比例，强制模型关注黑产特征。

B. 训练一个初始分类器 f1 区分 P 和 U，将 U 中被 f1 高概率预测为正的样本剔除，剩余的作为可靠负样本（Reliable Negatives）进行迭代训练。

C. 仅使用 P 和 N 集合训练模型，直接忽略 U 集合，以保证梯度的纯净性。

D. 将 U 集合视为负样本，引入 Focal Loss 机制，重点增加 U 中那些“难以分类样本”（Hard Negatives）的权重，迫使模型攻克分类边界。

上一题

下一题

题目解析

题目评论(0)

本题考察半监督学习中的样本偏差处理。 • A选项：错误。问题不在于数量不平衡，而在于标签噪声（Label Noise）。将未标记的U直接视为负例（Negative），会把潜在的未被发现的黑产强行标记为好人，模型会学习到错误的决策边界，导致模型“只认识已知的坏人，把未知坏人当好人”或“把像坏人的好人误杀”。 • B选项：正确。这是典型的 "Two-step PU Learning" 或 "Spy" 技术。先通过简单模型筛选出U中“最不像黑产”的部分作为可靠负样本（Reliable Negatives, RN），再利用 P 和 RN 训练最终分类器。这能有效利用大量未标记数据中的信息，同时降低噪声干扰。 • C选项：错误。丢弃95%的数据会丢失大量关于数据分布的信息，导致模型泛化能力极差，容易过拟合。 • D选项：错误。在此场景下，U 中混杂着真实的黑产（Hidden Positives）。如果模型变聪明了，它会觉得这些 Hidden Positives 很像黑产（预测概率偏高）。此时，如果我们把 U 强行视为负例，这些样本就变成了“预测是正，标签是负”的Hard Negatives（困难负样本）。结果就是：模型越是正确地把潜藏黑产识别出来，算法就越是狠狠地惩罚它，强迫模型把这些潜藏黑产当作好人。这直接导致模型被“毒化”，学习到了错误的特征分布。