考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在研究数据中,有一个变量“饮料类型”有4个水平“果汁”、“碳酸饮料”、“能量饮料”和“其他”,由于该变量的少量数据缺失,那么缺失值用哪种填充方式会比较好?
A. 均值
B. 中位数
C. 众数
D. 调和平均数
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

这是分类数据,只能用“众数”。

在选择填充缺失数据的方法时,需要考虑变量的性质和数据的分布情况。对于“饮料类型”这种分类变量,以下是对各个填充方法的分析:

1. **均值(A)**:均值适用于数值型数据,而“饮料类型”是一个分类变量,因此均值不适用。

2. **中位数(B)**:中位数通常用于数值型数据,对于分类数据没有意义,因此不适用。

3. **众数(C)**:众数是最常见的值,对于分类变量非常合适。用众数填充缺失值会选择出现频率最高的饮料类型,这样可以最大程度地保留数据的原始分布特点。

4. **调和平均数(D)**:调和平均数也主要用于数值型数据,适用于某些特定场合的数值计算,因此不适用于分类变量。

基于以上分析,**正确答案是 C: 众数**。选择众数填充缺失的分类变量是因为它可以保持数据的常见分布,同时避免引入偏差。