本题考察 LSTM 解决梯度消失的本质。
A 错误:LSTM 内部主要使用的是 Sigmoid 和 Tanh,并非依赖 ReLU 解决梯度消失。
B 错误:如果遗忘门接近 0,意味着切断历史记忆,反而会导致长距离依赖丢失,这与题干目标相反。
C 正确:在标准 RNN 中,隐藏层状态 ht 的更新涉及矩阵连乘(Wh 的 T 次方),导致梯度指数级衰减或爆炸。而在 LSTM 中,细胞状态的更新公式为 Ct=ft⊙Ct-1+it⊙C ̃t。这是一个加法模型。在反向传播计算 ∂Ct/(∂Ct-k) 时,梯度包含一个直接相连的通路(由遗忘门 f_t 调节)。只要 f_t 接近 1,梯度就可以长时间维持不衰减,形成所谓的“恒定误差这一传送带(Constant Error Carousel)”。
D 错误:参数量多不是解决梯度消失的原因。