数据分析师考试统计学二缺失值填补技巧-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

分类变量使用以下哪个统计量进行缺失值填补较合适

A. 均值

B. 最大值

C. 中位数

D. 众数

上一题

下一题

题目解析

题目评论(0)

正确答案是D: 众数。

### 专业分析

在处理缺失值时，选择合适的统计量进行填补是非常重要的，尤其是对于分类变量。下面是对各选项的分析：

- **A: 均值**
均值是数值型数据的一个重要统计量，用于测量数据的中心趋势。但是，对于分类变量（通常是非数值型数据），均值并不适用，因为分类变量没有数值意义。

- **B: 最大值**
最大值是指数据集中数值最大的观察值，这对于数值型数据可能有意义，但对于分类变量，最大值没有实际意义，因为分类变量没有“最大”这个概念。

- **C: 中位数**
中位数是将数据排序后位于中间的值，用于描述数据的中心位置。中位数适用于有序数值型数据，但不适合无序的分类变量。

- **D: 众数**
众数是指数据集中出现频率最高的值，对于分类变量而言，这是最合理的选择。使用众数填补缺失值可以保持数据的类别分布特征，因为它选择的是数据中最常见的类别。

### 补充说明

使用众数来填补分类变量的缺失值可以减少数据的偏差，使得填补后的数据集更能反映原始数据的分布情况。这是因为众数代表了类别最常出现的情况，能够较好地保持数据的原始分布特性。