考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

以下哪些方法属于对异常值或极端值的处理方法?(多选)
A. 先聚类,然后用同类的均值填充
B. 距离均值大于三倍标准差的值使用三倍标准差的值替代
C. 用均值填充
D. 超出1.5倍IQR的值使用1.5倍IQR的值替代
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

对于处理异常值或极端值的问题,通常有多种方法。以下是对每个选项的分析:

A: **先聚类,然后用同类的均值填充**
- 这种方法的思路是先将数据进行聚类,然后用所聚类中的均值来替代异常值。这是一种合理的处理极端值的方法,特别是在数据具有天然分组时,此方法能够通过聚类来找到合适的替代值。

B: **距离均值大于三倍标准差的值使用三倍标准差的值替代**
- 这种方法基于正态分布的3-sigma原则,即在正态分布中,99.7%的数据会落在均值的正负三个标准差范围内。因此,超出此范围的值通常被视为异常值。这种方法通过将异常值替换为临界值(三倍标准差)来限制极端值的影响,是常用的异常值处理方法。

C: **用均值填充**
- 用均值填充是简单的缺失值处理方法,但对于异常值处理不够理想,因为均值填充没有考虑异常值对整体数据的影响,可能导致信息丢失或数据偏差,通常不是优选的方法。

D: **超出1.5倍IQR的值使用1.5倍IQR的值替代**
- IQR(四分位距)是另一种检测异常值的方法,它不依赖于数据的分布形状。通常,1.5倍IQR之外的值被视为异常值。用1.5倍IQR的值替代异常值能够缩小极端值对数据集的影响。

从以上分析可以看出,处理异常值或极端值的合理方法包括:

- **A: 先聚类,然后用同类的均值填充**
- **B: 距离均值大于三倍标准差的值使用三倍标准差的值替代**
- **D: 超出1.5倍IQR的值使用1.5倍IQR的值替代**

所以,正确答案是 A、B、D。