本题考察分层评估(Stratified Evaluation)与全局评估的陷阱,以及硬约束(Constraint)与软优化(Optimization)的区别。
A选项:错误。F1-Score是一个基于调和平均数的“软指标”,它默认追求Precision和Recall的平衡,完全忽略了“FPR ≤ 0.1%”这个硬性的业务红线。
B选项:错误。这是典型的辛普森悖论(Simpson's Paradox)或分布不一致陷阱。
工程师往往认为“只要我全局指标(0.05%)比业务要求(0.1%)更严,那么局部肯定没问题”。
SVIP用户的行为模式通常比普通用户更活跃(高频点击、高额下单),在模型看来,SVIP的特征分布往往更像黑产(Score普遍偏高)。全量用户的FPR低,是因为海量低活的普通用户(Easy Negatives)拉低了分母。如果全量FPR=0.05%,在SVIP这个特定子群里,FPR可能高达2%甚至更高。必须看子集分布。
C选项:正确。既然约束是针对SVIP的,就必须在SVIP子集上划定阈值。这是唯一能从数学上严格保证满足业务条件的方法。
D选项:错误。这是典型的“优化目标”替代“硬性约束”的错误。
构建Cost Matrix是解决代价敏感问题的标准高级做法,看起来非常有“业务Sense”。
最小化期望损失(Minimizing Loss)是一个全局求和的过程。即使SVIP权重很大,如果黑产带来的收益(TP)足够大,或者普通用户的基数足够大,数学上的最优解仍然可能牺牲掉少部分SVIP(例如导致SVIP FPR=0.15%)来换取全局Loss的降低。约束(Constraint)必须优先于优化(Optimization),除非题目问的是“如何最大化利润”而非“如何满足合规要求”。