考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

文本表示方法通过某种形式将文本字符串表示成计算机所能处理的数值向量。下面关于文本表示说法正确的是:
A. 常用的文本表示方式有:离散式表示和分布式表示
B. TF-IDF模型是分布式表示方式
C. GLOVE 模型得到的词向量不能解决多义词的问题
D. ELMO模型训练的词向量可以解决多义词的问题
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

本文表示的发展过程基本是从One-Hot编码的词集模型->词袋模型->词嵌入模型。词集模型和词袋模型属于离散式表示,词嵌入模型属于分布式表示。 TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。 word2vec模型和Glove模型都属于词嵌入模型,他们都无法解决多义词的问题,所以才发展出后来的ELMO模型。

正确答案是:A、C、D。以下是对每个选项的专业分析:

A: 常用的文本表示方式有:离散式表示和分布式表示。
**分析**:这是正确的。离散式表示(如one-hot encoding)和分布式表示(如word2vec、GloVe、ELMo等)是文本表示的两种主要方式。离散式表示将每个词表示为高维稀疏向量,而分布式表示则将词表示为低维密集向量,能够捕捉词之间的语义关系。

B: TF-IDF模型是分布式表示方式。
**分析**:这是错误的。TF-IDF(Term Frequency-Inverse Document Frequency)是一种统计方法,用于评估一个词在一篇文档中的重要性。它属于离散式表示,因为它没有捕捉词与词之间的语义关系,只是基于词频和逆文档频率进行加权。

C: GLOVE 模型得到的词向量不能解决多义词的问题。
**分析**:这是正确的。GloVe(Global Vectors for Word Representation)模型生成的词向量是静态的,即每个词只有一个向量表示,无法区分同一个词在不同上下文中的不同含义,因此不能很好地解决多义词的问题。

D: ELMO模型训练的词向量可以解决多义词的问题。
**分析**:这是正确的。ELMo(Embeddings from Language Models)模型生成的词向量是动态的,它根据上下文生成词向量,因此同一个词在不同上下文中会有不同的表示,这样可以较好地解决多义词的问题。

总结:A、C、D选项的说法是正确的,而B选项的说法是错误的。