考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某房产估值团队使用朴素贝叶斯模型预测房价等级。特征工程阶段生成了以下特征:房屋面积(sqft),房间数(num_rooms),房屋总价(total_price)。目前发现了以下问题: 1. 历史数据中包含total_price,但在实际预测时该特征不可用。初级分析师误将total_price作为特征放进了训练集(数据泄露)。 2. 房屋面积与房间数存在极强烈的正相关性(多重共线性)。 在这种存在多重共线性(Multicollinearity)和标签泄露(Leakage)的混合场景下,关于朴素贝叶斯模型表现的描述,正确的是:
A. 由于特征间存在高度线性相关,导致对数似然函数的梯度下降优化过程无法收敛,模型训练时间会显著增加且难以得到最优解。
B. 朴素贝叶斯会因为重复计算相关特征的信息,导致预测概率趋向于极值(极度接近0或1),产生严重的“过度自信(Overconfidence)”现象。
C. 相比逻辑回归,朴素贝叶斯对多重共线性具有更强的鲁棒性,预测概率依然能保持良好的校准度(Calibration),仅分类边界会受到泄漏特征的干扰。
D. 根据条件独立性假设,模型会自动产生类似L2正则化(Ridge)的效果,将房屋面积和房间数的权重进行平摊,从而避免预测结果被冗余信息主导。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

本题考察朴素贝叶斯的数学假设与工业界常见的直觉陷阱。 A错误:这是逻辑回归(LR)在遇到多重共线性时的典型症状(海森矩阵奇异或条件数过大导致收敛困难)。朴素贝叶斯(无论是高斯还是多项式)有闭式解(Closed-form solution),它是基于计数或均值/方差的统计计算,不需要进行迭代优化(如梯度下降),因此不存在“不收敛”的问题。 B正确:这是朴素贝叶斯处理相关特征时的典型病态——Double Counting(重复计算)。 朴素贝叶斯假设 P(x1,x2│y)=P(x1│y)⋅P(x2│y)。 如果 x1 和 x2 完全相关(是一回事),逻辑回归会赋予它们各一半的权重(或根据正则化分配),但朴素贝叶斯会将这一信息计算两次。 这导致后验概率的分子被人为地指数级放大或缩小,最终的Softmax/归一化结果会极度趋向于0或1。虽然Rank(AUC)可能很高(因为单调性没变),但输出的Probability(概率值)已经完全失真,变得“过度自信”。 C错误:恰恰相反。逻辑回归(LR)可以通过正则化处理共线性,且其输出概率通常比NB校准得更好。NB在违反独立性假设时,校准度(Calibration)是非常差的。 D错误:这是对“独立性假设”的错误解读。朴素贝叶斯没有正则化机制来抑制冗余特征。相反,它“天真”地认为每个特征都提供了全新的独立证据,从而叠加了它们的影响。L2正则化平摊权重的特性属于线性模型(如Ridge Regression),不属于NB。