数据清洗方法与缺失值处理-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

数据清洗包括处理缺失值、异常值、重复值等脏数据，处理每种脏数据的方法也是多种多样。以下哪些处理方式可以用来处理缺失值？① 用均值填充② 转换为哑变量（0,1），代表数据是否缺失③ 使用回归模型去预测缺失值

A. ①②③

B. ②③

C. ①③

D. ①②

上一题

下一题

题目解析

题目评论(0)

常见处理缺失值的方法有：1.用单一值填充；2.把缺失值当做一类；3. 建立模型进行预测，4. 多重插补，①②③都符合，本题选A

正确答案是A: ①②③。

专业分析：

1. **用均值填充**（①）：这是最常见的处理缺失值的方法之一。对于数值型数据，可以使用均值填充缺失值，从而保持数据集的完整性。这种方法简单易行，但可能会引入一定的偏差，尤其是当数据分布不对称时。

2. **转换为哑变量（0,1），代表数据是否缺失**（②）：这种方法将缺失值信息显式地编码为二进制变量（0或1），表示数据是否缺失。这种方法保留了缺失值的信息，同时允许模型在训练过程中考虑缺失值的影响。

3. **使用回归模型去预测缺失值**（③）：这种方法利用其他特征的信息，通过回归模型预测缺失值。该方法通常能提供比简单填充方法更准确的估计，但需要更多的计算资源和复杂度。

因此，答案A: ①②③是正确的，因为这三种方法都可以用来处理缺失值。