数据分析中的缺失值处理方法-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

在数据分析过程中数据并不是完美的，比如数据中的缺失值会影响我们的分析，下面关于缺失值的填补说法错误的是（）

A. 一般来说当缺失值少于20%时，连续变量必须使用均值或中位数填补

B. 分类变量不需要填补，单算一类即可，或者也可以用众数填补分类变量

C. 当缺失值处于20%-80%之间时，填补方法同上，同时每个有缺失值的变量可以生成一个指示哑变量，参与后续的建模

D. 当缺失值多于80%时，每个有缺失值的变量生成一个指示哑变量，参与后续的建模，原始变量不再被使用。

上一题

下一题

题目解析

题目评论(0)

一般来说当缺失值少于20%时，连续变量可以使用均值或中位数填补；分类变量不需要填补，单算一类即可，或者也可以用众数填补分类变量。当缺失值处于20%-80%之间时，填补方法同上，同时每个有缺失值的变量可以生成一个指示哑变量，参与后续的建模。当缺失值多于80%时，每个有缺失值的变量生成一个指示哑变量，参与后续的建模，原始变量不再被使用。

正确答案是：A

分析如下：

A: 一般来说当缺失值少于20%时，连续变量必须使用均值或中位数填补。这种说法并不完全正确。虽然均值和中位数是常用的填补方法，但并不是“必须”使用的。根据具体情况，还可以使用其他方法如插值法、回归法等。

B: 分类变量不需要填补，单算一类即可，或者也可以用众数填补分类变量。这种说法是合理的。分类变量的缺失值可以作为一个单独的类别处理，也可以用众数填补。

C: 当缺失值处于20%-80%之间时，填补方法同上，同时每个有缺失值的变量可以生成一个指示哑变量，参与后续的建模。这种说法是合理的。生成指示哑变量可以帮助模型识别缺失值的模式，对模型的性能可能有所帮助。

D: 当缺失值多于80%时，每个有缺失值的变量生成一个指示哑变量，参与后续的建模，原始变量不再被使用。这种说法是合理的。当缺失值过多时，原始变量的信息可能已经不再可靠，生成哑变量可以更好地处理这种情况。

综上所述，选项A的说法是不完全正确的，因此是错误的选项。