考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

分类变量使用以下哪个统计量进行缺失值填补较合适
A. 均值
B. 最大值
C. 中位数
D. 众数
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

正确答案是D: 众数。

### 专业分析

在处理缺失值时,选择合适的统计量进行填补是非常重要的,尤其是对于分类变量。下面是对各选项的分析:

- **A: 均值**
均值是数值型数据的一个重要统计量,用于测量数据的中心趋势。但是,对于分类变量(通常是非数值型数据),均值并不适用,因为分类变量没有数值意义。

- **B: 最大值**
最大值是指数据集中数值最大的观察值,这对于数值型数据可能有意义,但对于分类变量,最大值没有实际意义,因为分类变量没有“最大”这个概念。

- **C: 中位数**
中位数是将数据排序后位于中间的值,用于描述数据的中心位置。中位数适用于有序数值型数据,但不适合无序的分类变量。

- **D: 众数**
众数是指数据集中出现频率最高的值,对于分类变量而言,这是最合理的选择。使用众数填补缺失值可以保持数据的类别分布特征,因为它选择的是数据中最常见的类别。

### 补充说明

使用众数来填补分类变量的缺失值可以减少数据的偏差,使得填补后的数据集更能反映原始数据的分布情况。这是因为众数代表了类别最常出现的情况,能够较好地保持数据的原始分布特性。