描述性统计分析中的缺失值填充方法-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

在数据分析中，变量“饮料类型”有 4 个水平“果汁”“碳酸饮料”“能量饮料”“其他”，由于该变量的少量数据缺失，那么缺失值用哪种填充方式会比较好?()

A. 均值

B. 中位数

C. 众数

D. 调和平均数

上一题

下一题

题目解析

题目评论(0)

这是分类数据，只能用“众数”。

在数据分析中，变量“饮料类型”是一个分类变量（类别变量），而不是一个数值变量。因此，对于分类变量的缺失值填充，通常不会使用均值、中位数或调和平均数这些数值统计方法。相反，最常用的方法是使用众数（即出现频率最高的类别）来填充缺失值。

所以，正确答案是：C: 众数。

专业分析如下：
1. **均值**：适用于数值型变量，不适用于分类变量。
2. **中位数**：适用于数值型变量，不适用于分类变量。
3. **众数**：适用于分类变量，因为它代表了数据集中出现最多的类别，是最常用的填充方法。
4. **调和平均数**：适用于数值型变量，特别是涉及比率或速率时，不适用于分类变量。

因此，在处理分类变量“饮料类型”的缺失值时，使用众数填充是最合适的方法。