考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在进行数据分析时,经常要分割训练集、测试集,并且还要考虑数据预处理、特征抽取、特征工程等,那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程,请回答以下问题:(4)能检测异常值的方法有?
A. 箱线图
B. 散点图
C. 条形图
D. 3sigma法则
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

异常值也叫离群值。箱线图可以看单变量的异常值,一般默认3倍标准差之外的 值为异常值。 在线性回归分析中,当某个样本数据离群太远时,拟合的回归线会受到这个数据的强烈干 扰,从而改变回归线的位置。在简单线性回归中,因为是双变量,可以使用散点图查看。但 是在多元回归中,自变量较多,散点图就无法使用了,此时,可以学生化残差,即对残差进 行z-score标准化。经验显示,当样本量为几百个时,学生化残差指标大于2就为离群值;当 样本量为上千个时,学生化残差指标大于3就为离群值。

答案是:A: 箱线图 和 D: 3sigma法则。

分析如下:

1. **箱线图 (Box Plot)**:
- **作用**:箱线图是一种统计图表,用于显示数据集的分布情况。它能够直观地展示数据的中位数、四分位数、最小值、最大值和异常值(离群点)。
- **检测异常值**:在箱线图中,通常通过绘制数据的四分位范围(IQR)来识别异常值。位于上四分位数(Q3)加上1.5倍IQR或下四分位数(Q1)减去1.5倍IQR之外的数据点被认为是异常值。

2. **3sigma法则**:
- **作用**:3sigma法则基于正态分布的统计特性,用于识别数据中的异常值。
- **检测异常值**:在正态分布中,99.7%的数据点将落在均值(μ)加减3个标准差(σ)范围内。因此,超出这个范围的数据点可以被视为异常值。

3. **散点图 (Scatter Plot)**:
- **作用**:散点图用于展示两个变量之间的关系。虽然可以通过散点图直观地观察是否存在异常值,但它并不是专门用于检测异常值的方法。

4. **条形图 (Bar Chart)**:
- **作用**:条形图主要用于展示分类数据的频数分布。它不适合用于检测异常值。

综上所述,箱线图和3sigma法则是常用的检测异常值的方法,而散点图和条形图在异常值检测方面并不常用。