考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在进行数据分析时,经常要分割训练集、测试集,并且还要考虑数据预处理、特征加工,那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程,请回答以下问题 (4)不能检测异常值的方法有?
A. 箱线图
B. 散点图
C. 条形图
D. 3sigma法则
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

异常值也叫离群值。箱线图可以看单变量的异常值,一般默认3倍标准差之外的 值为异常值。 在线性回归分析中,当某个样本数据离群太远时,拟合的回归线会受到这个数据的强烈干 扰,从而改变回归线的位置。在简单线性回归中,因为是双变量,可以使用散点图查看。但 是在多元回归中,自变量较多,散点图就无法使用了,此时,可以学生化残差,即对残差进 行z-score标准化。经验显示,当样本量为几百个时,学生化残差指标大于2就为离群值;当 样本量为上千个时,学生化残差指标大于3就为离群值。