数据清洗阶段包含哪些内容-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

以下几项中，可以归于知识发掘处理（Knowledge Discovery Process）中的数据清洗阶段的有（）

A. 异常值处理

B. 缺失值处理

C. 预测结果可视化输出

D. 理解业务背景

上一题

下一题

题目解析

题目评论(0)

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等

正确答案是：A: 异常值处理和 B: 缺失值处理。

专业分析：

知识发掘处理（Knowledge Discovery Process）是一个多步骤的过程，通常包括数据收集、数据清洗、数据集成、数据变换、数据挖掘、模式评估和知识表示等阶段。数据清洗是其中一个关键步骤，主要目的是提高数据质量，以便后续的数据分析和挖掘能够更加准确和可靠。

在数据清洗阶段，主要涉及以下几个方面：

A: 异常值处理：异常值（Outliers）是指数据中偏离正常范围的值，这些值可能是由于数据录入错误、传感器故障等原因产生的。在数据清洗阶段，需要识别并处理这些异常值，以免它们对后续分析产生误导。

B: 缺失值处理：缺失值（Missing Values）是指数据集中某些属性的值缺失。缺失值可能会影响数据分析的结果，因此需要在数据清洗阶段进行处理，常见的方法有删除缺失值、用平均值或中位数填补缺失值等。

C: 预测结果可视化输出：这是数据挖掘或分析后的一个步骤，属于模式评估或知识表示阶段，不属于数据清洗阶段。

D: 理解业务背景：这是知识发掘过程的前期准备工作，通常属于数据收集或需求分析阶段，不属于数据清洗阶段。

综上所述，A: 异常值处理和 B: 缺失值处理是数据清洗阶段的典型工作内容。