本题考察朴素贝叶斯的数学假设与工业界常见的直觉陷阱。
A错误:这是逻辑回归(LR)在遇到多重共线性时的典型症状(海森矩阵奇异或条件数过大导致收敛困难)。朴素贝叶斯(无论是高斯还是多项式)有闭式解(Closed-form solution),它是基于计数或均值/方差的统计计算,不需要进行迭代优化(如梯度下降),因此不存在“不收敛”的问题。
B正确:这是朴素贝叶斯处理相关特征时的典型病态——Double Counting(重复计算)。
朴素贝叶斯假设 P(x1,x2│y)=P(x1│y)⋅P(x2│y)。
如果 x1 和 x2 完全相关(是一回事),逻辑回归会赋予它们各一半的权重(或根据正则化分配),但朴素贝叶斯会将这一信息计算两次。
这导致后验概率的分子被人为地指数级放大或缩小,最终的Softmax/归一化结果会极度趋向于0或1。虽然Rank(AUC)可能很高(因为单调性没变),但输出的Probability(概率值)已经完全失真,变得“过度自信”。
C错误:恰恰相反。逻辑回归(LR)可以通过正则化处理共线性,且其输出概率通常比NB校准得更好。NB在违反独立性假设时,校准度(Calibration)是非常差的。
D错误:这是对“独立性假设”的错误解读。朴素贝叶斯没有正则化机制来抑制冗余特征。相反,它“天真”地认为每个特征都提供了全新的独立证据,从而叠加了它们的影响。L2正则化平摊权重的特性属于线性模型(如Ridge Regression),不属于NB。