数据分析师考试：无需统一量纲的模型-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

在乳腺癌数据集当中有30个数值型特征，分别代表了30个光片上面的特征，其中包含平均半径，平均光滑度，平均紧凑度等，但数据的量纲不同，请回答以下问题：（1）以下模型中有哪一个是不需要统一量纲的？

A. KNN

B. SVM

C. 随机森林

D. Kmeans

上一题

下一题

题目解析

题目评论(0)

随机森林不需要计算距离，因此不需要统一量纲

正确答案是：C: 随机森林

专业分析：
在处理机器学习任务时，不同算法对数据特征的量纲（尺度）有不同的敏感性。以下是对每个选项的分析：

A: KNN（K-近邻算法）
KNN算法基于距离度量来进行分类或回归，因此特征的量纲会直接影响距离计算。如果特征的量纲不同，数值较大的特征会在距离计算中占主导地位，因此KNN需要对特征进行标准化或归一化。

B: SVM（支持向量机）
SVM通过找到一个最佳的超平面来分隔不同类别的数据点。特征的量纲会影响到超平面的构建过程，因为SVM的优化目标包含特征的数值。因此，SVM也需要对特征进行标准化或归一化。

C: 随机森林
随机森林是一种基于决策树的集成学习方法。决策树在进行分裂时，只考虑特征的相对顺序和阈值，而不是具体的数值。因此，随机森林对特征的量纲不敏感，不需要对特征进行标准化或归一化。

D: Kmeans（K均值聚类）
Kmeans算法通过计算数据点到聚类中心的距离来进行聚类，因此特征的量纲会影响距离计算。如果特征的量纲不同，数值较大的特征会在距离计算中占主导地位，因此Kmeans也需要对特征进行标准化或归一化。

综上所述，随机森林是上述选项中唯一一个不需要统一量纲的模型。