在分析这些说法之前,我们先简要回顾一下相关概念:
A. ReLU(Rectified Linear Unit)是深度学习中常用的激活函数,其输出为输入值的非负部分。ReLU的输出范围是[0, ∞),对于负值输入,输出为0。这种非饱和性质减少了梯度消失的问题,但并不能完全解决它。相反,ReLU有可能引发“死亡ReLU”问题,即神经元在训练过程中可能永远输出0。
B. ReLU函数确实将所有负值截断为0,这可能导致某些特征的丢失,尤其是在神经元权重初始化不当或学习率不合适时。然而,调高学习率并不是解决这个问题的好方法,过高的学习率可能导致训练不稳定甚至发散。通常的解决方案包括使用带泄漏的ReLU(Leaky ReLU)或其他变种。
C. RMSProp是一种自适应学习率优化算法,它通过引入累积平方梯度的概念来调整学习率,从而在训练过程中保持学习率的稳定性。这确实有助于避免学习率过早趋向于0的问题。
D. 随机梯度下降(SGD)每次更新权重时确实是基于一个样本(或一个小批量的样本),这使得其计算速度较快。然而,单个样本的噪声可能导致更新方向不稳定,因此通常使用小批量(mini-batch)来平衡速度和稳定性。
结合上述分析,正确的说法是:
C: RMSProp学习率调整策略引入累积梯度的概念,从而解决学习率过早趋向于0而结束训练。