本文表示的发展过程基本是从One-Hot编码的词集模型->词袋模型->词嵌入模型。词集模型和词袋模型属于离散式表示,词嵌入模型属于分布式表示。
TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。
word2vec模型和Glove模型都属于词嵌入模型,他们都无法解决多义词的问题,所以才发展出后来的ELMO模型。
正确答案是:A、C、D。以下是对每个选项的专业分析:
A: 常用的文本表示方式有:离散式表示和分布式表示。
**分析**:这是正确的。离散式表示(如one-hot encoding)和分布式表示(如word2vec、GloVe、ELMo等)是文本表示的两种主要方式。离散式表示将每个词表示为高维稀疏向量,而分布式表示则将词表示为低维密集向量,能够捕捉词之间的语义关系。
B: TF-IDF模型是分布式表示方式。
**分析**:这是错误的。TF-IDF(Term Frequency-Inverse Document Frequency)是一种统计方法,用于评估一个词在一篇文档中的重要性。它属于离散式表示,因为它没有捕捉词与词之间的语义关系,只是基于词频和逆文档频率进行加权。
C: GLOVE 模型得到的词向量不能解决多义词的问题。
**分析**:这是正确的。GloVe(Global Vectors for Word Representation)模型生成的词向量是静态的,即每个词只有一个向量表示,无法区分同一个词在不同上下文中的不同含义,因此不能很好地解决多义词的问题。
D: ELMO模型训练的词向量可以解决多义词的问题。
**分析**:这是正确的。ELMo(Embeddings from Language Models)模型生成的词向量是动态的,它根据上下文生成词向量,因此同一个词在不同上下文中会有不同的表示,这样可以较好地解决多义词的问题。
总结:A、C、D选项的说法是正确的,而B选项的说法是错误的。