-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

你所在的电商平台“TechMall”即将举行年度最大的“超级品牌日”活动，核心引流项目是“53度飞天茅台1499元整点秒杀”。由于商品存在巨大的二级市场价差，该活动吸引了大量“黑产”（羊毛党、机器脚本、群控设备）进行抢购。业务痛点： 1. 极度不平衡与标签缺失：在数千万次请求中，只有极少数是真正的黑产攻击，且平台只能确认部分被投诉的账号是黑产（Positive），以及部分长期高活的忠实用户是正常（Negative），海量中间用户的性质是未知的（Unlabeled）。 2. 高并发低时延：秒杀开启瞬间QPS（每秒查询率）破十万，风控模型必须在20ms内返回拦截决策。 3. 对抗性强：黑产会不断变换IP、设备指纹、UA等特征来绕过规则。 4. 误杀成本高：如果误拦截了平台的高价值VIP用户，会导致严重的客诉和品牌舆情危机。数据团队决定构建一套基于实时行为序列与 LightGBM+LSTM 的模型。请基于此背景回答以下5道题。（4）模型经过多轮迭代，离线AUC达到了0.92。在业务评估阶段，业务方提出了明确的约束条件：“为了保护高价值（SVIP）用户的体验，对SVIP用户的误杀率（False Positive Rate）绝不能超过0.1%。”你是该项目的负责人，需要根据此约束选择最佳的模型阈值（Threshold）。假设测试集中包含SVIP用户样本，且模型输出了每个样本为黑产的概率 P(y=1│x)。以下哪种操作流程是最科学且符合业务目标的？

A. 选取F1-Score最大的点对应的阈值作为上线阈值，因为F1兼顾了精准率和召回率，能平衡各类错误。

B. 在全量测试集（含普通用户和SVIP）上绘制ROC曲线，选取 FPR = 0.05% （比业务要求更严）时对应的阈值，利用“安全边际”原则确保SVIP的安全。

C. 单独筛选出测试集中的SVIP用户子集，绘制该子集的ROC曲线，固定 FPR = 0.1% 时对应的阈值 T，并将此 T 应用于线上模型。

D. 构建一个成本矩阵，将SVIP误杀的惩罚权重设为普通用户误杀的100倍，计算并选择能使“全局期望损失（Total Expected Loss）”最小化的阈值。

上一题

下一题

题目解析

题目评论(0)

本题考察分层评估（Stratified Evaluation）与全局评估的陷阱，以及硬约束（Constraint）与软优化（Optimization）的区别。 A选项：错误。F1-Score是一个基于调和平均数的“软指标”，它默认追求Precision和Recall的平衡，完全忽略了“FPR ≤ 0.1%”这个硬性的业务红线。 B选项：错误。这是典型的辛普森悖论（Simpson's Paradox）或分布不一致陷阱。工程师往往认为“只要我全局指标（0.05%）比业务要求（0.1%）更严，那么局部肯定没问题”。 SVIP用户的行为模式通常比普通用户更活跃（高频点击、高额下单），在模型看来，SVIP的特征分布往往更像黑产（Score普遍偏高）。全量用户的FPR低，是因为海量低活的普通用户（Easy Negatives）拉低了分母。如果全量FPR=0.05%，在SVIP这个特定子群里，FPR可能高达2%甚至更高。必须看子集分布。 C选项：正确。既然约束是针对SVIP的，就必须在SVIP子集上划定阈值。这是唯一能从数学上严格保证满足业务条件的方法。 D选项：错误。这是典型的“优化目标”替代“硬性约束”的错误。构建Cost Matrix是解决代价敏感问题的标准高级做法，看起来非常有“业务Sense”。最小化期望损失（Minimizing Loss）是一个全局求和的过程。即使SVIP权重很大，如果黑产带来的收益（TP）足够大，或者普通用户的基数足够大，数学上的最优解仍然可能牺牲掉少部分SVIP（例如导致SVIP FPR=0.15%）来换取全局Loss的降低。约束（Constraint）必须优先于优化（Optimization），除非题目问的是“如何最大化利润”而非“如何满足合规要求”。