考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

团队正在开发一个针对用户全生命周期(LTV)预测的模型,输入数据是用户过去2年的行为日志序列(序列长度 T 可达 500+)。在使用标准 RNN 建模时,发现模型无法捕捉早期的关键行为特征(如首次注册时的渠道来源),导致长周期预测效果差。团队决定切换为 LSTM。从梯度反向传播的数学原理来看,LSTM 相比标准 RNN 能更有效捕捉长距离依赖的核心原因是:
A. LSTM 引入了 ReLU 激活函数替代 Tanh,使得梯度在大于0的区域保持为1,从而避免衰减
B. 遗忘门(Forget Gate)的输出值通常接近 0,使得历史冗余信息被快速丢弃,减少了梯度计算的负担
C. 细胞状态(Cell State)的更新公式是加法形式,使得误差梯度能在反向传播时以常数流的形式无损(或低损)传递
D. 输出门(Output Gate)控制了隐状态(Hidden State)的非线性映射,使得模型参数量比 RNN 多,从而具备了更强的拟合能力
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

本题考察 LSTM 解决梯度消失的本质。 A 错误:LSTM 内部主要使用的是 Sigmoid 和 Tanh,并非依赖 ReLU 解决梯度消失。 B 错误:如果遗忘门接近 0,意味着切断历史记忆,反而会导致长距离依赖丢失,这与题干目标相反。 C 正确:在标准 RNN 中,隐藏层状态 ht 的更新涉及矩阵连乘(Wh 的 T 次方),导致梯度指数级衰减或爆炸。而在 LSTM 中,细胞状态的更新公式为 Ct=ft⊙Ct-1+it⊙C ̃t。这是一个加法模型。在反向传播计算 ∂Ct/(∂Ct-k) 时,梯度包含一个直接相连的通路(由遗忘门 f_t 调节)。只要 f_t 接近 1,梯度就可以长时间维持不衰减,形成所谓的“恒定误差这一传送带(Constant Error Carousel)”。 D 错误:参数量多不是解决梯度消失的原因。