-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

有一个包含1000个特征的数据集，其中大部分是One-Hot形式的稀疏特征。某实习生为了加速训练，考虑使用PCA（主成分分析）降维到50维，然后输入到随机森林（Random Forest）中。你作为技术负责人，指出这个方案通常效果不佳，为什么？

A. PCA是线性变换，无法捕捉数据中的非线性关系，而随机森林需要非线性特征。

B. PCA旋转了坐标轴，将原本稀疏且正交的One-Hot特征变成了稠密的数值特征。随机森林擅长处理轴平行（Axis-aligned）的切分，PCA生成的斜向特征（Oblique features）反而让树模型很难通过特征切分来区分样本。

C. PCA降维会丢失方差较小的信息，而这些信息在分类任务中可能恰恰是区分度最高的。

D. 随机森林在高维数据上本身就具有很强的抗过拟合能力（通过特征子采样），强行PCA反而丢失了原始特征的物理含义和解释性。

上一题

下一题

题目解析

题目评论(0)

• A错误：PCA确实是线性的，但随机森林可以处理非线性，这不冲突。问题不在于线性。 • B正确（核心原因）：树模型的决策边界是阶梯状的（轴平行）。PCA的主成分通常是所有原始特征的线性组合，树模型需要非常深的树才能逼近这种斜线边界。 • C正确：PCA保留的是“方差”，不是“信息量”或“类别区分度”。方差小的特征可能是最关键的分类特征。 • D正确：RF不需要降维。