考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在数据清洗中,处理缺失值时需遵循特定原则。根据业务理解,需区分缺失值是故意缺失还是随机缺失,并采取相应策略。当缺失值比例不同时,处理方法也有所差异,关于缺失值处理,以下说法正确的有哪些?
A. 当缺失值少于20%时,连续变量可以用均值填补,分类变量可以不填补单独作为一类
B. 对于缺失值在20%-80%的变量,除了填补外,还应生成指示哑变量用于建模
C. 分类变量缺失值必须用众数填补,不能单独作为一类
D. 当缺失值超过80%时,应生成指示哑变量并放弃使用原始变量
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

A正确:教材中指出,当缺失值少于20%时,连续变量可用均值/中位数填补,分类变量无需填补,可单独作为一类。B正确:缺失值在20%-80%时,填补后需生成指示哑变量参与建模(教材中明确要求“每个有缺失值的变量生成一个指示哑变量”)。C错误:教材中明确分类变量“不需要填补,单算一类即可”,因此“必须用众数填补”的说法错误。D正确:缺失值超过80%时,教材中要求生成指示哑变量并弃用原始变量(“原始变量不再被使用”)。错误选项C违背了分类变量处理的灵活性,而A、B、D均严格符合教材中的处理原则。