本题考察半监督学习中的样本偏差处理。
• A选项:错误。问题不在于数量不平衡,而在于标签噪声(Label Noise)。将未标记的U直接视为负例(Negative),会把潜在的未被发现的黑产强行标记为好人,模型会学习到错误的决策边界,导致模型“只认识已知的坏人,把未知坏人当好人”或“把像坏人的好人误杀”。
• B选项:正确。这是典型的 "Two-step PU Learning" 或 "Spy" 技术。先通过简单模型筛选出U中“最不像黑产”的部分作为可靠负样本(Reliable Negatives, RN),再利用 P 和 RN 训练最终分类器。这能有效利用大量未标记数据中的信息,同时降低噪声干扰。
• C选项:错误。丢弃95%的数据会丢失大量关于数据分布的信息,导致模型泛化能力极差,容易过拟合。
• D选项:错误。在此场景下,U 中混杂着真实的黑产(Hidden Positives)。如果模型变聪明了,它会觉得这些 Hidden Positives 很像黑产(预测概率偏高)。此时,如果我们把 U 强行视为负例,这些样本就变成了“预测是正,标签是负”的Hard Negatives(困难负样本)。结果就是:模型越是正确地把潜藏黑产识别出来,算法就越是狠狠地惩罚它,强迫模型把这些潜藏黑产当作好人。这直接导致模型被“毒化”,学习到了错误的特征分布。