本题考查主成分分析相关知识。选项A表述的信息是因子分析,不是主成分分析。选项B中主成分分析对应最大特征值的特征向量,其方向正是协方差矩阵变异最大的方向,表述错误。选项C前k个主成分特征根单个需要大于1,因此表述错误。选项D表述正确,因此本题选D。
正确答案是:D: 我们一般使得保留的前k个主成分累计能够解释数据80%以上的变异。
专业分析:
A: 错误。主成分分析(PCA)的本质是通过线性变换将原始变量转换为一组新的、不相关的变量(即主成分),这些新变量按照解释方差的大小排列。PCA并不涉及找到解释变量的公共因子和特殊因子,这属于因子分析的范畴。
B: 错误。在主成分分析中,对应最大特征值的特征向量,其方向是协方差矩阵变异最大的方向,而不是最小的方向。PCA的目标是找到数据中方差最大的方向,并将其作为第一主成分。
C: 错误。我们通常保留的主成分的数量不仅仅取决于特征根之和大于1,还需要考虑这些主成分能够解释的数据总变异比例。特征根大于1的原则在因子分析中有时会被采用,但在PCA中更常用的是累计解释方差的比例。
D: 正确。在实际应用中,我们通常选择前k个主成分,使得这些主成分能够解释数据总变异的80%以上。这个比例可以根据具体情况调整,但80%是一个常见的经验值,能够在减少维度的同时保留大部分数据信息。