考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在研究数据中,有一个变量“饮料类型”有4 个水平“果汁”、“碳酸饮料”、“能量饮料”和“其他”,由于该变量的少量数据缺失,那么缺失值用哪种填充方式会比较好?
A. 均值
B. 中位数
C. 众数
D. 调和平均数
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

这是分类数据,只能用“众数”。

在处理分类变量(如“饮料类型”)的缺失值时,通常使用众数(即出现频率最高的类别)进行填充是比较合适的选择。因此,正确答案是 C: 众数。

专业分析如下:

1. **均值和调和平均数**:这些方法通常用于数值型数据,而不是分类变量。对于分类变量,均值和调和平均数没有实际意义。

2. **中位数**:中位数也是一种用于数值型数据的填充方法,适用于连续变量或有序的离散变量。对于无序的分类变量,中位数不适用。

3. **众数**:众数是指在数据集中出现频率最高的值。对于分类变量,众数是最常用的填充缺失值的方法,因为它能保持数据的类别分布特性。

因此,在处理“饮料类型”这种分类变量的缺失值时,使用众数进行填充是最合适的方法。