在选项中,我们需要分析每一项关于有监督学习和无监督学习的陈述,以找出不正确的选项。
- **A: 回归和分类算法均属于有监督学习**
- **分析**:有监督学习的核心在于使用带标签的数据来训练模型,以便能够对新数据进行预测。回归和分类都是有监督学习的主要任务类型,因此这项陈述是正确的。
- **B: 有监督学习是从标签化训练数据集中推断出模型的机器学习任务**
- **分析**:这项描述了有监督学习的基本定义。通过标签化的训练数据集训练模型来进行预测是有监督学习的核心。因此,这项也是正确的。
- **C: 主成分、聚类、决策树是无监督学习**
- **分析**:主成分分析(PCA)和聚类(如K-means)是无监督学习的常见算法,因为它们不需要预先标签化的数据集。它们用于数据降维和发现数据内在结构。然而,决策树通常用于有监督学习(尽管可以应用于无监督学习任务中,通常它们在分类和回归中使用,即有监督学习)。因此,这里将决策树归类为无监督学习是不准确的。
- **D: 对于监督学习中的分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距**
- **分析**:数据偏斜(不平衡)确实是分类问题中的一个重要问题,因为它会导致模型偏向于预测多数类。为此,通常希望不同类别的数据数量之间不要有过大的数量级差距。因此,这项陈述是正确的。
综上所述,C项中的将决策树归类为无监督学习是不准确的,正确答案是不正确的选项:
**C: 主成分、聚类、决策树是无监督学习**