考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。关于word2vec模型,下面说法不正确的是:
A. 得到的词向量维度小,可以节省存储和计算资源
B. 考虑了全局语料库的信息
C. 无法解决多义词的问题
D. 可以表示词和词之间的关系
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

文本表示的目的是把文本预处理后的转换成计算机可理解的方式。它的发展过程是从One-Hot编码的词集模型(统计各词在文本中是否出现)->CountVectorizer、IF-IDF这样的词袋模型(考虑了词频、词的重要性,但是会出现词表膨胀的问题)->word2vec、GloVe模型这样的词嵌入模型(将各词映射为实数域上的向量,词向量之间的几何关系表示词之间的语义关系;降低了词向量维度)。因此A、D正确。word2vec的skip-gram、CBOW这两种模型每次都是用一个窗口中的信息更新出词向量,而Glove才是用全局的信息(共线矩阵),也就是多个窗口进行更新的模型。所以B不正确。但是Word2Vec、GloVe模型都不能有效表示自然语言中广泛存在的多义词的问题,因此才有后来的ELMO模型。所以C选择正确

正确答案是:B:考虑了全局语料库的信息

专业分析:

Word2vec是一种用于生成词向量的模型,它通过浅层神经网络来训练词向量,使得相似语义的词在向量空间中距离较近。对于选项的分析如下:

A: 得到的词向量维度小,可以节省存储和计算资源
这句话是正确的。Word2vec生成的词向量通常维度较小(例如100-300维),相比于传统的词袋模型(Bag of Words)大大减少了维度,从而节省了存储和计算资源。

B:考虑了全局语料库的信息
这句话是不正确的。Word2vec主要通过局部上下文窗口来训练词向量,即只考虑某个词周围的一小部分词汇,而不是整个语料库的全局信息。因此,它并没有直接考虑全局语料库的信息。

C:无法解决多义词的问题
这句话是正确的。标准的Word2vec模型无法区分多义词的不同含义,因为它为每个词生成一个唯一的向量,而不考虑词在不同上下文中的不同含义。

D: 可以表示词和词之间的关系
这句话是正确的。Word2vec生成的词向量可以捕捉到词与词之间的语义关系,例如通过向量的加减操作可以得到一些有意义的结果(如“king - man + woman ≈ queen”)。

综上所述,选项B是不正确的,因此正确答案是B。