考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

向量空间模型是信息检索技术,下面有关向量空间模型(VSM)的描述中,错误的是:
A. 以向量来表示文档后,两者的夹角越小说明相似度越高
B. 文本特征词的向量权重可通过TF-IDF实现,从而保留文本词序结构信息
C. 在向量空间模型中,当有新文档加入时,需要重新计算特征词的权重
D. 基于向量的文本相似度计算中,除了内积、Dice系数、夹角余弦,还可用Jaccard方法
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

向量空间模型是信息检索技术,B选择说的是文本表示的内容

正确答案是:B: 文本特征词的向量权重可通过TF-IDF实现,从而保留文本词序结构信息。

**分析:**

向量空间模型(Vector Space Model, VSM)是信息检索中的一种经典模型,其基本思想是将文档和查询都表示为向量,通过计算向量之间的相似度来进行信息检索。下面对每个选项进行详细分析:

A: **以向量来表示文档后,两者的夹角越小说明相似度越高**
- 这是正确的。在向量空间模型中,文档和查询都被表示为向量,向量之间的夹角越小,相似度越高。通常使用余弦相似度来衡量这种相似度。

B: **文本特征词的向量权重可通过TF-IDF实现,从而保留文本词序结构信息**
- 这是错误的。TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于衡量词语在文档中的重要性的方法,它并不保留文本的词序信息。TF-IDF仅仅计算词频和逆文档频率的乘积,得到每个词在文档中的权重,但不涉及词语的顺序。

C: **在向量空间模型中,当有新文档加入时,需要重新计算特征词的权重**
- 这是正确的。在VSM中,特征词的权重通常使用TF-IDF来计算,而IDF(逆文档频率)是依赖于整个文档集合的。因此,当有新文档加入时,需要重新计算IDF,从而更新特征词的权重。

D: **基于向量的文本相似度计算中,除了内积、Dice系数、夹角余弦,还可用Jaccard方法**
- 这是正确的。在向量空间模型中,除了使用内积、Dice系数和余弦相似度,还可以使用Jaccard系数来计算文本相似度。Jaccard系数是一种常用的相似度度量方法,特别适用于集合相似度的计算。

综上所述,选项B的描述是错误的,因此正确答案是B。