ELMo(Embeddings from Language Models)预训练模型的特点是基于双向的 LSTM 拼接。因此,正确答案是 C: 基于双向的 LSTM 拼接。
专业分析:
1. **ELMo的架构**:ELMo是通过使用双向的LSTM(Long Short-Term Memory)网络来生成词嵌入的。LSTM是一种特殊的循环神经网络(RNN),适合处理和预测时间序列数据。
2. **双向性**:ELMo模型通过结合前向和后向LSTM来捕捉上下文信息。前向LSTM从句子的开始到结束处理文本,而后向LSTM则从句子的结束到开始处理文本。这种双向性使得ELMo能够更好地理解词语在不同上下文中的意义。
3. **拼接机制**:ELMo通过将来自不同层的LSTM隐藏状态拼接在一起,生成上下文相关的词向量。这些词向量不仅依赖于词本身,还依赖于其在句子中的位置和上下文。
4. **与Transformer的区别**:ELMo与基于Transformer的模型(如BERT、GPT)不同,后者使用自注意力机制来处理句子中的词语关系。ELMo的设计先于这些Transformer模型,并不使用Transformer架构。
综上所述,ELMo的核心特点是基于双向的LSTM拼接,而不是基于Transformer编码器或解码器。