异常值也叫离群值。箱线图可以看单变量的异常值,一般默认3倍标准差之外的 值为异常值。 在线性回归分析中,当某个样本数据离群太远时,拟合的回归线会受到这个数据的强烈干 扰,从而改变回归线的位置。在简单线性回归中,因为是双变量,可以使用散点图查看。但 是在多元回归中,自变量较多,散点图就无法使用了,此时,可以学生化残差,即对残差进 行z-score标准化。经验显示,当样本量为几百个时,学生化残差指标大于2就为离群值;当 样本量为上千个时,学生化残差指标大于3就为离群值。
检测异常值的方法有以下几种:
A: 箱线图
B: 散点图
D: 3sigma法则
正确答案是:A、B、D。
**专业分析:**
1. **箱线图(Box Plot)**:
- 箱线图是一种常用的统计图形,用于显示数据分布的集中趋势、离散程度和异常值。通过箱线图,可以很容易地识别出数据中的异常值,这些异常值通常会显示在箱线图的"胡须"之外。
2. **散点图(Scatter Plot)**:
- 散点图通过点的分布情况展示两个变量之间的关系。在散点图中,异常值通常会显得与其他数据点格格不入,显著偏离数据的整体趋势或分布。
3. **3sigma法则(3-Sigma Rule)**:
- 3sigma法则基于正态分布理论,认为在一个正态分布中,99.7%的数据点会落在均值的三个标准差范围内。因此,超过这个范围的数据点可以被认为是异常值。这种方法适用于数据近似正态分布的情况。
**条形图(Bar Chart)**:
- 条形图主要用于显示分类数据的频率分布,不适合用于检测异常值。因此,条形图不被认为是检测异常值的有效方法。
综上所述,箱线图、散点图和3sigma法则都是有效的异常值检测方法,而条形图不是。