一般来说当缺失值少于20%时,连续变量可以使用均值或中位数填补;分类变量不需要填补,单算一类即可,或者也可以用众数填补分类变量。当缺失值处于20%-80%之间时,填补方法同上,同时每个有缺失值的变量可以生成一个指示哑变量,参与后续的建模。当缺失值多于80%时,每个有缺失值的变量生成一个指示哑变量,参与后续的建模,原始变量不再被使用。
正确答案是:A
分析如下:
A: 一般来说当缺失值少于20%时,连续变量必须使用均值或中位数填补。这种说法并不完全正确。虽然均值和中位数是常用的填补方法,但并不是“必须”使用的。根据具体情况,还可以使用其他方法如插值法、回归法等。
B: 分类变量不需要填补,单算一类即可,或者也可以用众数填补分类变量。这种说法是合理的。分类变量的缺失值可以作为一个单独的类别处理,也可以用众数填补。
C: 当缺失值处于20%-80%之间时,填补方法同上,同时每个有缺失值的变量可以生成一个指示哑变量,参与后续的建模。这种说法是合理的。生成指示哑变量可以帮助模型识别缺失值的模式,对模型的性能可能有所帮助。
D: 当缺失值多于80%时,每个有缺失值的变量生成一个指示哑变量,参与后续的建模,原始变量不再被使用。这种说法是合理的。当缺失值过多时,原始变量的信息可能已经不再可靠,生成哑变量可以更好地处理这种情况。
综上所述,选项A的说法是不完全正确的,因此是错误的选项。