考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在某建模项目中,数据团队收集了100个维度的特征,但其中有90个维度都是与预测目标几乎无关的随机噪声(Irrelevant Features)。团队没有时间进行精细的特征筛选,决定直接将所有特征扔进模型。在这种极端信噪比(Signal-to-Noise Ratio)的情况下,理论上表现最差、最容易受到无关特征干扰导致性能崩塌的模型是:
A. 带有L1正则化的逻辑回归(Lasso)
B. 随机森林(Random Forest)
C. K-最近邻(KNN)
D. 梯度提升树(GBDT)
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

本题考察“维度灾难”对不同算法的具体影响机制。 o C 正确:KNN对无关特征最敏感。因为KNN计算距离时会累加所有维度的差值。那90个噪声维度的随机波动会产生巨大的距离干扰,淹没掉10个有效维度的真实距离信息,导致“近邻”变得随机。 o A 错误:L1正则化(Lasso)天生具有特征选择能力,能将无关特征的权重压缩为0。 o B/D 错误:决策树算法基于信息增益(或Gini系数)选择分裂特征。在分裂节点时,算法会扫描所有特征,优先选择能区分目标的有效特征,而忽略无关特征。因此树模型对无关特征具有很强的天然鲁棒性。