正确答案是:C: LSTM中使用Sigmoid函数实现门限控制,而用Tanh函数实现数据处理,两者目的不同。
分析:
A: Sigmoid激活函数确实容易在权重初始化较大或较小时出现梯度消失问题,但Tanh函数虽然在一定程度上缓解了这个问题(因为它的输出均值是0),但并不能从根本上解决梯度消失问题。更常用的解决方案包括使用ReLU激活函数或其变体。
B: 批规范化(Batch Normalization)确实是为了让每一层的输入保持相对稳定的分布,但它是通过引入额外的参数(缩放和平移参数)来实现的,而不是在不引入新参数的情况下。
C: 在LSTM中,Sigmoid函数用于门控机制(如输入门、遗忘门、输出门)来控制信息的流动,而Tanh函数用于对细胞状态进行更新和输出处理。两者的目的确实不同。
D: 梯度下降法是一阶优化算法,利用目标函数的一阶导数信息进行优化,常见的版本如SGD(随机梯度下降)并不能快速达到目标值。二阶优化方法,如牛顿法,才利用了二阶导数信息(如Hessian矩阵)来实现更快的收敛,但它们通常计算复杂度较高。梯度下降法本身不属于二阶收敛方法。