分类变量缺失值填充方法-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

常见的缺失值填充方法有填充默认值、均值、众数等方式。下面可以对分类变量的缺失值填充的方法是？

A. 均值

B. 范数

C. 众数

D. 最小值

上一题

下一题

题目解析

题目评论(0)

除了众数，其他统计值在分类变量中不存在

正确答案是 C: 众数。

分析：
在处理缺失值时，选择合适的填充方法取决于变量的类型。分类变量（也称为类别变量）是指取值为有限个离散类别的变量，例如颜色（红、绿、蓝）或城市（北京、上海、广州）。

- **均值**（A）通常用于数值变量（连续变量），因为均值是数值变量的平均值，对于分类变量没有意义。
- **范数**（B）通常用于衡量向量的大小或距离，不适用于缺失值填充，尤其是分类变量。
- **众数**（C）是数据集中出现频率最高的值，对于分类变量来说，众数是最常用的填充方法，因为它代表了最常见的类别。
- **最小值**（D）通常用于数值变量，表示数据中的最小数值，对于分类变量来说，最小值并没有实际意义。

因此，对于分类变量的缺失值填充，选择众数是最合适的，因为它能代表数据集中最常见的类别，从而使得填充后的数据更具代表性和一致性。