考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

下面模型训练的一些常用技巧中,错误的是:(多选)
A. 如果训练样本量较大,可选用随机梯度下降(SGD),它考虑历史梯度信息,更容易跳出局部极小值点
B. 在高度非凸的深度网络优化过程,主要难点不是局部最小值点,而是鞍点
C. 用无监督数据作分层预训练(Layer-wise Pre-train)有助于解决梯度饱和问题
D. Sigmoid交叉熵损失函数适合于多标签学习,每一维彼此独立
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在分析这些选项时,我们需要仔细考虑每个选项的技术背景和其在深度学习中的应用场景:

A: 如果训练样本量较大,可选用随机梯度下降(SGD),它考虑历史梯度信息,更容易跳出局部极小值点
- 这是错误的。随机梯度下降(SGD)本身不考虑历史梯度信息。相比于基本的梯度下降,SGD在每一步只使用一个或少数几个样本进行更新,这使得它能够更快地进行参数更新并跳出局部最小值。但它并不使用历史梯度信息,这样的特性一般是动量(Momentum)方法或自适应学习率方法(如Adam)所具有的。

B: 在高度非凸的深度网络优化过程,主要难点不是局部最小值点,而是鞍点
- 这是正确的。在深度学习中,很多优化问题是非凸的。在非凸优化中,鞍点比局部极小值点更为常见且更具挑战性,因为梯度在鞍点处可能为零,但这些点并不是我们希望找到的极小值。

C: 用无监督数据作分层预训练(Layer-wise Pre-train)有助于解决梯度饱和问题
- 这是正确的。分层预训练可以帮助模型在训练初期更好地初始化权重,以避免或减轻梯度消失或梯度爆炸问题。这种预训练通过利用无监督学习在每一层中学习到有用的特征表示,从而提升深层网络的训练效果,让反向传播的梯度更容易进行有效的权重调整。

D: Sigmoid交叉熵损失函数适合于多标签学习,每一维彼此独立
- 这是正确的。Sigmoid交叉熵损失函数通常用于多标签分类问题。在这种情况下,每个标签的分类是独立的,即每个类别都使用一个独立的二元分类器,通过sigmoid输出概率并计算交叉熵损失。

综上所述,错误的选项是:
- A.