填补缺失数据的方法选择-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

In studying the data, there is a variable "beverage type" with 4 levels "juice", "carbonated drink", "energy drink" and "other". Due to missing values in a small amount of data, which fill method would be best?

A. Mean

B. Median

C. Mode

D. Harmonic mean

上一题

下一题

题目解析

题目评论(0)

This is categorical data, so only "mode" can be used.

在处理分类变量（如“饮料类型”）的缺失值时，最常用的方法是使用众数（Mode），即该变量中出现频率最高的类别。因为均值（Mean）、中位数（Median）和调和平均数（Harmonic mean）通常适用于数值型数据，而不是分类数据。

因此，正确答案是：C: Mode

专业分析如下：

1. **均值（Mean）**：适用于数值型数据，通过计算所有数据点的平均值来填补缺失值。但在分类变量中，均值没有意义。

2. **中位数（Median）**：同样适用于数值型数据，表示数据排序后的中间值。在分类变量中，中位数的概念也不适用。

3. **众数（Mode）**：适用于分类变量，表示数据集中出现频率最高的类别。对于“饮料类型”这种分类变量，使用众数填补缺失值是最合理的选择。

4. **调和平均数（Harmonic mean）**：主要用于处理比例数据或速率数据，在分类变量中不适用。

综上所述，对于“饮料类型”这种分类变量，使用众数（Mode）填补缺失值是最佳选择。