-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

某房产估值团队使用朴素贝叶斯模型预测房价等级。特征工程阶段生成了以下特征：房屋面积(sqft)，房间数(num_rooms)，房屋总价(total_price)。目前发现了以下问题： 1. 历史数据中包含total_price，但在实际预测时该特征不可用。初级分析师误将total_price作为特征放进了训练集（数据泄露）。 2. 房屋面积与房间数存在极强烈的正相关性（多重共线性）。在这种存在多重共线性（Multicollinearity）和标签泄露（Leakage）的混合场景下，关于朴素贝叶斯模型表现的描述，正确的是：

A. 由于特征间存在高度线性相关，导致对数似然函数的梯度下降优化过程无法收敛，模型训练时间会显著增加且难以得到最优解。

B. 朴素贝叶斯会因为重复计算相关特征的信息，导致预测概率趋向于极值（极度接近0或1），产生严重的“过度自信（Overconfidence）”现象。

C. 相比逻辑回归，朴素贝叶斯对多重共线性具有更强的鲁棒性，预测概率依然能保持良好的校准度（Calibration），仅分类边界会受到泄漏特征的干扰。

D. 根据条件独立性假设，模型会自动产生类似L2正则化（Ridge）的效果，将房屋面积和房间数的权重进行平摊，从而避免预测结果被冗余信息主导。

上一题

下一题

题目解析

题目评论(0)

本题考察朴素贝叶斯的数学假设与工业界常见的直觉陷阱。 A错误：这是逻辑回归（LR）在遇到多重共线性时的典型症状（海森矩阵奇异或条件数过大导致收敛困难）。朴素贝叶斯（无论是高斯还是多项式）有闭式解（Closed-form solution），它是基于计数或均值/方差的统计计算，不需要进行迭代优化（如梯度下降），因此不存在“不收敛”的问题。 B正确：这是朴素贝叶斯处理相关特征时的典型病态——Double Counting（重复计算）。朴素贝叶斯假设 P(x1,x2│y)=P(x1│y)⋅P(x2│y)。如果 x1 和 x2 完全相关（是一回事），逻辑回归会赋予它们各一半的权重（或根据正则化分配），但朴素贝叶斯会将这一信息计算两次。这导致后验概率的分子被人为地指数级放大或缩小，最终的Softmax/归一化结果会极度趋向于0或1。虽然Rank（AUC）可能很高（因为单调性没变），但输出的Probability（概率值）已经完全失真，变得“过度自信”。 C错误：恰恰相反。逻辑回归（LR）可以通过正则化处理共线性，且其输出概率通常比NB校准得更好。NB在违反独立性假设时，校准度（Calibration）是非常差的。 D错误：这是对“独立性假设”的错误解读。朴素贝叶斯没有正则化机制来抑制冗余特征。相反，它“天真”地认为每个特征都提供了全新的独立证据，从而叠加了它们的影响。L2正则化平摊权重的特性属于线性模型（如Ridge Regression），不属于NB。