多分类模型训练集选择方法-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

对于一个多分类模型，可以如何选择训练集？（多选）

A. 有放回简单随机抽样

B. 无放回简单随机抽样

C. 分层抽样

D. 整群抽样

上一题

下一题

题目解析

题目评论(0)

在选择训练集时，我们需要确保训练集足够代表整个数据集的分布，尤其是在多分类问题中，各个类别的样本应该在训练集中有相应的体现。以下是对各选项的分析：

A: **有放回简单随机抽样**
- 特点：每次抽样后，样本会被放回，可能会导致某些样本被多次抽中，而另一些可能未被抽中。
- 分析：不太适合用于构建训练集，因为它可能导致样本分布不均匀，尤其是在数据量较小的情况下。

B: **无放回简单随机抽样**
- 特点：每次抽样后，样本不会被放回，确保所有样本只被选中一次。
- 分析：适合用于构建训练集，能保证样本的多样性。不过在类别不平衡时，可能会抽不到某些小类别的足够样本。

C: **分层抽样**
- 特点：按照类别比例进行抽样，以保证训练集中各类别的比例与整个数据集一致。
- 分析：非常适合多分类问题，特别是在类别分布不均衡时，因为它能够确保每个类别都得到充分的代表。

D: **整群抽样**
- 特点：随机选择部分群组，然后使用这些群组中的所有样本。
- 分析：不太适合用于训练集选择，除非数据的分组本身具有代表性。否则，可能导致样本不具备充分的代表性。

综上，对于多分类模型的训练集选择，推荐使用 **B:无放回简单随机抽样** 和 **C:分层抽样**。其中，**分层抽样**是更为优选的方法，因为它能更好地保证类别分布的一致性。