本文表示的发展过程基本是从One-Hot编码的词集模型->词袋模型->词嵌入模型。词集模型和词袋模型属于离散式表示,词嵌入模型属于分布式表示。TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。word2vec模型和Glove模型都属于词嵌入模型,他们都无法解决多义词的问题,所以才发展出后来的ELMO模型。
正确答案是:A、C、D
专业分析如下:
A: 常用的文本表示方式有:离散式表示和分布式表示
- 这句话是正确的。文本表示方式主要分为两类:离散式表示(如One-hot表示)和分布式表示(如词向量表示)。
B: TF-IDF模型是分布式表示方式
- 这句话是错误的。TF-IDF(Term Frequency-Inverse Document Frequency)是一种离散式表示方法,它通过计算词频和逆文档频率来衡量词的重要性,但并不生成连续的数值向量。
C: GLOVE 模型得到的词向量不能解决多义词的问题
- 这句话是正确的。GloVe(Global Vectors for Word Representation)模型生成的词向量是静态的,即每个词只有一个固定的向量表示,无法区分多义词在不同上下文中的不同含义。
D: ELMO模型训练的词向量可以解决多义词的问题
- 这句话是正确的。ELMo(Embeddings from Language Models)模型生成的词向量是动态的,能够根据上下文生成不同的词向量,从而有效地解决多义词的问题。