考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在获取训练(Train)集时,一般使用什么方法?
A. 有放回抽样
B. 无放回抽样
C. 取数据的前60%部分
D. 取数据的后60%部分
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

无放回抽样,并且保证样本尽可能均匀

在获取训练集时,通常使用的方法与具体任务和数据集有关。不过,在一般的机器学习和数据处理场景下,以下分析可以帮助理解这些选项的使用:

1. **有放回抽样**和**无放回抽样**:
- **有放回抽样**(A):通常用于生成一个与原始数据集大小相同的子集。这种方法在训练集生成中不常使用,因为它可能导致重复数据。
- **无放回抽样**(B):适用于需要从数据集中选择一部分数据以确保没有重复样本的情况。这更接近于训练集的获取方式,尤其是在构建交叉验证集时。

2. **取数据的前60%部分**和**取数据的后60%部分**:
- **取数据的前60%部分**(C)和**后60%部分**(D):用于简单的时间序列数据拆分或当数据有时间顺序时。但一般来说,随机分割数据集更常用,以避免时间顺序对训练集的偏倚。

综上所述,**无放回抽样**(B)是较为通用的方法,因为它可以确保生成的训练集与测试集没有重叠,从而保证模型评估的可靠性。因此,选项 B 是在获取训练集时一种常用的方法,特别是在不想重复样本的情况下。