数据分析师考试：缺失值填充方法-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

在研究数据中，有一个变量“饮料类型”有4个水平“果汁”、“碳酸饮料”、“能量饮料”和“其他”，由于该变量的少量数据缺失，那么缺失值用哪种填充方式会比较好？

A. 均值

B. 中位数

C. 众数

D. 调和平均数

上一题

下一题

题目解析

题目评论(0)

这是分类数据，只能用“众数”。

在选择填充缺失数据的方法时，需要考虑变量的性质和数据的分布情况。对于“饮料类型”这种分类变量，以下是对各个填充方法的分析：

1. **均值（A）**：均值适用于数值型数据，而“饮料类型”是一个分类变量，因此均值不适用。

2. **中位数（B）**：中位数通常用于数值型数据，对于分类数据没有意义，因此不适用。

3. **众数（C）**：众数是最常见的值，对于分类变量非常合适。用众数填充缺失值会选择出现频率最高的饮料类型，这样可以最大程度地保留数据的原始分布特点。

4. **调和平均数（D）**：调和平均数也主要用于数值型数据，适用于某些特定场合的数值计算，因此不适用于分类变量。

基于以上分析，**正确答案是 C: 众数**。选择众数填充缺失的分类变量是因为它可以保持数据的常见分布，同时避免引入偏差。