考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

有一个包含1000个特征的数据集,其中大部分是One-Hot形式的稀疏特征。某实习生为了加速训练,考虑使用PCA(主成分分析)降维到50维,然后输入到随机森林(Random Forest)中。你作为技术负责人,指出这个方案通常效果不佳,为什么?
A. PCA是线性变换,无法捕捉数据中的非线性关系,而随机森林需要非线性特征。
B. PCA旋转了坐标轴,将原本稀疏且正交的One-Hot特征变成了稠密的数值特征。随机森林擅长处理轴平行(Axis-aligned)的切分,PCA生成的斜向特征(Oblique features)反而让树模型很难通过特征切分来区分样本。
C. PCA降维会丢失方差较小的信息,而这些信息在分类任务中可能恰恰是区分度最高的。
D. 随机森林在高维数据上本身就具有很强的抗过拟合能力(通过特征子采样),强行PCA反而丢失了原始特征的物理含义和解释性。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

• A错误:PCA确实是线性的,但随机森林可以处理非线性,这不冲突。问题不在于线性。 • B正确(核心原因):树模型的决策边界是阶梯状的(轴平行)。PCA的主成分通常是所有原始特征的线性组合,树模型需要非常深的树才能逼近这种斜线边界。 • C正确:PCA保留的是“方差”,不是“信息量”或“类别区分度”。方差小的特征可能是最关键的分类特征。 • D正确:RF不需要降维。