考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

以下关于数据诊断清洗的说法哪些是正确的:
A. 数据在人工输入时是会出现数据错误,比如年龄,性别等数据项
B. 数据在编码过程中不会出现错误,比如教育程度,编码成1,2,3,4等,因为是由程序自动完成的
C. 数据误差不会影响模型建立的准确性,因为预测是概率性的
D. 数据是从数据仓库中提取的,在ETL阶段已经进行的清洗,所以不用在建模阶段在进行清理了
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在数据诊断与清洗过程中,各种错误可能会影响数据质量,从而影响模型的准确性。以下是对各选项的专业分析:

| 选项 | 正确性 | 分析 |
|------|--------|------|
| A | 正确 | 在人工输入数据时,确实可能出现数据错误,如年龄或性别录入错误等。这些错误可能由于输入失误或人为疏忽造成,因此需要在后续的数据清洗过程中加以识别和纠正。|
| B | 错误 | 虽然数据编码通常是由程序自动完成,但这样并不意味着编码过程没有错误。编码过程中可能会出现映射错误或者数据源本身的问题,这些都会造成编码后的数据不正确。因此,即便是自动化的编码过程,仍然需要验证和检查。|
| C | 错误 | 数据误差会影响模型的准确性。虽然预测具有概率性,但基础数据的质量直接关系到模型训练的效果。数据误差可能导致模型学到错误的模式,进而影响预测结果的可靠性。|
| D | 错误 | 虽然数据在ETL(抽取、转换、加载)阶段可能已经进行了初步清洗,但建模阶段常常需要针对具体模型和分析目标进行进一步的数据清理和预处理。这包括处理缺失值、异常值、特征工程等,以提高模型的有效性和准确性。|

因此,选项A是正确的,而B、C、D都存在不同程度的误解。要建立高质量的数据模型,数据清洗工作至关重要,且需要在各个阶段严格执行。