考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

机器学习是借助数学模型理解数学,那么最重要的原材料就是数据。可见数据在机器学习中的作用。下列关于数据的要求不正确的是()
A. 数据需要包含尽可能多的信息,可以不跟学习任务有。
B. 对于监督学习中的分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。
C. 建模前需要评估数据样本的量级,估算模型学习对内存的消耗
D. 如果数据量太大可以考虑减少训练样本、降维或者使用分布式机器学习系统
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

正确答案是 **A**: 数据需要包含尽可能多的信息,可以不跟学习任务有。

**分析**:

在机器学习中,数据的质量和相关性至关重要。以下是对各个选项的详细分析:

- **A: 数据需要包含尽可能多的信息,可以不跟学习任务有。**
- **不正确**。数据应该与学习任务密切相关,包含有助于模型学习目标任务的信息。无关或噪声的数据可能会导致模型的性能下降或者学习到错误的模式。

- **B: 对于监督学习中的分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。**
- **正确**。数据偏斜过于严重会导致模型过拟合某些类别,忽视其他类别,影响分类器的泛化能力。因此,不同类别的样本数量应该相对均衡。

- **C: 建模前需要评估数据样本的量级,估算模型学习对内存的消耗。**
- **正确**。在建模之前,了解数据的规模和模型的内存消耗是十分必要的,这影响到模型能否在给定的硬件条件下训练和运行。

- **D: 如果数据量太大可以考虑减少训练样本、降维或者使用分布式机器学习系统。**
- **正确**。在处理大规模数据时,减少训练样本、降维(特征选择、主成分分析等)或采用分布式系统(如Hadoop,Spark)等方法都是常见的应对策略,可以有效缓解计算资源的压力。

综上所述,选项A不符合机器学习对数据的基本要求,因此是不正确的。