Word2vec模型常见问题解析-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

Word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。关于word2vec模型，下面说法不正确的是：

A. 得到的词向量维度小，可以节省存储和计算资源

B. 考虑了全局语料库的信息

C. 无法解决多义词的问题

D. 可以表示词和词之间的关系

上一题

下一题

题目解析

题目评论(0)

文本表示的目的是把文本预处理后的转换成计算机可理解的方式。它的发展过程是从One-Hot编码的词集模型（统计各词在文本中是否出现）->CountVectorizer、IF-IDF这样的词袋模型（考虑了词频、词的重要性，但是会出现词表膨胀的问题）->word2vec、GloVe模型这样的词嵌入模型（将各词映射为实数域上的向量，词向量之间的几何关系表示词之间的语义关系；降低了词向量维度）。因此A、D正确。 word2vec的skip-gram、CBOW这两种模型每次都是用一个窗口中的信息更新出词向量，而Glove才是用全局的信息（共线矩阵），也就是多个窗口进行更新的模型。所以B不正确。但是Word2Vec、GloVe模型都不能有效表示自然语言中广泛存在的多义词的问题，因此才有后来的ELMO模型。所以C选择正确

正确答案是：B:考虑了全局语料库的信息

分析：
Word2vec模型是一种用于生成词向量的技术，它通过浅层的神经网络来训练词向量。以下是对各个选项的分析：

A: 得到的词向量维度小，可以节省存储和计算资源
这个说法是正确的。Word2vec生成的词向量通常是低维的（例如100维或300维），相比于传统的高维稀疏向量表示方法（如one-hot编码），低维词向量确实可以节省存储和计算资源。

B:考虑了全局语料库的信息
这个说法是不正确的。Word2vec模型主要通过局部上下文窗口来训练词向量，它关注的是词在局部上下文中的共现关系，而不是全局语料库的信息。全局信息更多是由其他模型如GloVe（Global Vectors for Word Representation）来考虑的。

C:无法解决多义词的问题
这个说法是正确的。传统的Word2vec模型确实无法很好地解决多义词的问题，因为它为每个词生成一个唯一的词向量，而没有区分不同语境下同一个词的不同意义。

D: 可以表示词和词之间的关系
这个说法是正确的。Word2vec生成的词向量能够捕捉词与词之间的语义关系。例如，通过向量的加减运算，可以发现“国王 - 男人 + 女人 ≈ 女王”这样的关系。

综上所述，正确答案是B。