考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

(多选题)某连续型变量数据集的缺失值占比约10%,可以采用哪种方法处理( )?
A. 均值填补
B. K-means聚类填补
C. 回归填补
D. 众数填补
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

本题考查处理缺失值相关知识。对于占比10%左右的数据集缺失值处理,可以采用均值填补、K-means聚类填补和回归填补等方式,众数填补一般是对每一列的缺失值,填充当列的众数。由于存在某列缺失值过多,众数为NAN的情况,因此这里取的是每列删除掉NAN值后的众数,因此不合适此类场景,可以尝试改为用中位数填补。因此本题正确的选项是ABC。