考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在数据分析过程中数据并不是完美的,比如数据中的缺失值会影响我们的分析,下面关于缺失值的填补说法错误的是()
A. 一般来说当缺失值少于20%时,连续变量必须使用均值或中位数填补
B. 分类变量不需要填补,单算一类即可,或者也可以用众数填补分类变量
C. 当缺失值处于20%-80%之间时,填补方法同上,同时每个有缺失值的变量可以生成一个指示哑变量,参与后续的建模
D. 当缺失值多于80%时,每个有缺失值的变量生成一个指示哑变量,参与后续的建模,原始变量不再被使用。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

一般来说当缺失值少于20%时,连续变量可以使用均值或中位数填补;分类变量不需要填补,单算一类即可,或者也可以用众数填补分类变量。当缺失值处于20%-80%之间时,填补方法同上,同时每个有缺失值的变量可以生成一个指示哑变量,参与后续的建模。当缺失值多于80%时,每个有缺失值的变量生成一个指示哑变量,参与后续的建模,原始变量不再被使用。

正确答案是:A

分析如下:

A: 一般来说当缺失值少于20%时,连续变量必须使用均值或中位数填补。这种说法并不完全正确。虽然均值和中位数是常用的填补方法,但并不是“必须”使用的。根据具体情况,还可以使用其他方法如插值法、回归法等。

B: 分类变量不需要填补,单算一类即可,或者也可以用众数填补分类变量。这种说法是合理的。分类变量的缺失值可以作为一个单独的类别处理,也可以用众数填补。

C: 当缺失值处于20%-80%之间时,填补方法同上,同时每个有缺失值的变量可以生成一个指示哑变量,参与后续的建模。这种说法是合理的。生成指示哑变量可以帮助模型识别缺失值的模式,对模型的性能可能有所帮助。

D: 当缺失值多于80%时,每个有缺失值的变量生成一个指示哑变量,参与后续的建模,原始变量不再被使用。这种说法是合理的。当缺失值过多时,原始变量的信息可能已经不再可靠,生成哑变量可以更好地处理这种情况。

综上所述,选项A的说法是不完全正确的,因此是错误的选项。