考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在进行数据分析时,经常要分割训练集、测试集,并且还要考虑数据预处理、特征抽取、特征工程等,那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程,请回答以下问题 (4)能检测异常值的方法有?
A. 箱线图
B. 散点图
C. 条形图
D. 3sigma法则
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

异常值也叫离群值。箱线图可以看单变量的异常值,一般默认3倍标准差之外的 值为异常值。 在线性回归分析中,当某个样本数据离群太远时,拟合的回归线会受到这个数据的强烈干 扰,从而改变回归线的位置。在简单线性回归中,因为是双变量,可以使用散点图查看。但 是在多元回归中,自变量较多,散点图就无法使用了,此时,可以学生化残差,即对残差进 行z-score标准化。经验显示,当样本量为几百个时,学生化残差指标大于2就为离群值;当 样本量为上千个时,学生化残差指标大于3就为离群值。

检测异常值的方法有以下几种:

A: 箱线图
B: 散点图
D: 3sigma法则

正确答案是:A、B、D。

**专业分析:**

1. **箱线图(Box Plot)**:
- 箱线图是一种常用的统计图形,用于显示数据分布的集中趋势、离散程度和异常值。通过箱线图,可以很容易地识别出数据中的异常值,这些异常值通常会显示在箱线图的"胡须"之外。

2. **散点图(Scatter Plot)**:
- 散点图通过点的分布情况展示两个变量之间的关系。在散点图中,异常值通常会显得与其他数据点格格不入,显著偏离数据的整体趋势或分布。

3. **3sigma法则(3-Sigma Rule)**:
- 3sigma法则基于正态分布理论,认为在一个正态分布中,99.7%的数据点会落在均值的三个标准差范围内。因此,超过这个范围的数据点可以被认为是异常值。这种方法适用于数据近似正态分布的情况。

**条形图(Bar Chart)**:
- 条形图主要用于显示分类数据的频率分布,不适合用于检测异常值。因此,条形图不被认为是检测异常值的有效方法。

综上所述,箱线图、散点图和3sigma法则都是有效的异常值检测方法,而条形图不是。