-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

在某建模项目中，数据团队收集了100个维度的特征，但其中有90个维度都是与预测目标几乎无关的随机噪声（Irrelevant Features）。团队没有时间进行精细的特征筛选，决定直接将所有特征扔进模型。在这种极端信噪比（Signal-to-Noise Ratio）的情况下，理论上表现最差、最容易受到无关特征干扰导致性能崩塌的模型是：

A. 带有L1正则化的逻辑回归（Lasso）

B. 随机森林（Random Forest）

C. K-最近邻（KNN）

D. 梯度提升树（GBDT）

上一题

下一题

题目解析

题目评论(0)

本题考察“维度灾难”对不同算法的具体影响机制。 o C 正确：KNN对无关特征最敏感。因为KNN计算距离时会累加所有维度的差值。那90个噪声维度的随机波动会产生巨大的距离干扰，淹没掉10个有效维度的真实距离信息，导致“近邻”变得随机。 o A 错误：L1正则化（Lasso）天生具有特征选择能力，能将无关特征的权重压缩为0。 o B/D 错误：决策树算法基于信息增益（或Gini系数）选择分裂特征。在分裂节点时，算法会扫描所有特征，优先选择能区分目标的有效特征，而忽略无关特征。因此树模型对无关特征具有很强的天然鲁棒性。