考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

以下哪两个算法最容易受到离群值的影响?(多选)
A. KNN
B. 决策树
C. 等宽装箱法
D. 等分装箱法
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在给定的选项中,以下两个算法最容易受到离群值的影响:

1. **A: KNN(K-近邻算法)**
2. **C: 等宽装箱法**

### 专业分析:

#### 1. KNN(K-近邻算法)
- **影响原因**:KNN 是一种基于距离的算法,在进行分类或回归时,通常使用欧氏距离等度量方法来计算样本之间的相似度。离群值会显著影响距离计算,使得这些异常点可能会不成比例地影响模型的预测。
- **表现**:离群值可能会成为 KNN 算法中的“近邻”,从而错误地影响待分类点的类别或数值预测。

#### 2. 等宽装箱法
- **影响原因**:等宽装箱法是将数据划分为等宽的区间,在这种方法中,离群值可能会导致某些区间包含的数据量非常少或者非常多,从而影响数据的分布描述。
- **表现**:如果离群值落在区间的边缘,它可能会导致某些区间几乎为空或集中大量异常值,这会影响基于分箱进行的任何后续分析(如直方图的形态等)。

### 其他选项分析:

#### B: 决策树
- 决策树通常对离群值具有一定的鲁棒性,因为它们基于信息增益或基尼指数来选择特征和分割点。但是,在极端情况下,离群值可能会影响树的分裂点。

#### D: 等分装箱法
- 等分装箱法是根据数据的分位数进行分箱,使得每个箱包含相等数量的样本,这种方法对离群值有一定的抵抗力,因为离群值不会改变箱的数量。

因此,KNN 和等宽装箱法是最容易受到离群值影响的两个算法。