考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

数据清理是一项数据工程,需要多种预分析技术才能保证模型的数据源是可用的,以下说法错误的是()
A. 预分析中的异常值处理,主要是因为异常值影响变量的分布;
B. 预分析中的缺失值处理,主要是因为缺失值影响当前变量的信息;
C. 预分析中的变换处理,主要是因为变换技术能够保证数据不出现异常值;
D. 预分析中的共线性处理,主要是因为共线性影响模型解释;
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

正确答案是:C: 预分析中的变换处理,主要是因为变换技术能够保证数据不出现异常值。

专业分析:

A: 异常值处理是数据预分析中的重要步骤,因为异常值可能会极大地影响数据的分布和统计分析结果,从而影响模型的性能。因此,处理异常值是为了减少其对变量分布和模型结果的影响。

B: 缺失值处理是为了保证数据完整性和减少信息损失。缺失值可能导致偏差,影响模型的训练和预测能力,因此需要进行处理。

C: 变换处理的主要目的是为了改变数据的分布形态,使其符合模型的假设(如正态性),或是为了使数据更适合于某些分析方法。变换技术并不能保证数据不出现异常值,异常值的出现可能与测量误差、数据录入错误等多种因素有关,不是单纯通过变换可以解决的。

D: 共线性处理是为了降低变量之间的多重共线性对模型解释和稳定性的影响。共线性会导致模型参数估计不稳定,影响模型的解释能力。

因此,选项C的说法是错误的,因为变换处理并不是为了保证数据不出现异常值。