考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

下面有关向量空间模型(VSM)的描述中,错误的是:
A. 以向量来表示文档后,两者的夹角余弦值越小说明相似度越高
B. 文本特征词的向量权重可通过TF-IDF实现,从而保留文本词序结构信息
C. 在向量空间模型中,当有新文档加入时,需要重新计算特征词的权重
D. 基于向量的文本相似度计算中,除了内积、Dice系数、夹角余弦,还可用Jaccard方法
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在向量空间模型(VSM)中,对文档和查询的相似度进行计算时,可能存在一些误解或错误的理解。以下是对各选项的分析:

A: 以向量来表示文档后,两者的夹角余弦值越小说明相似度越高
- **分析**:在向量空间模型中,夹角余弦值越大(接近1),说明两个向量越接近,即相似度越高。夹角余弦值越小(接近0),说明两个向量差异越大,相似度越低。因此,选项A是错误的。

B: 文本特征词的向量权重可通过TF-IDF实现,从而保留文本词序结构信息
- **分析**:TF-IDF是一种用来衡量一个单词在文档集合中重要性的方法,但它不保留文本的词序结构信息。它只关注单词的出现频率及其在整个文档集中的逆文档频率。因此,选项B是错误的。

C: 在向量空间模型中,当有新文档加入时,需要重新计算特征词的权重
- **分析**:加入新文档可能会改变整个文档集合中词的分布,因此TF-IDF等权重可能需要重新计算以反映新的文档集结构。因此,选项C是正确的。

D: 基于向量的文本相似度计算中,除了内积、Dice系数、夹角余弦,还可用Jaccard方法
- **分析**:Jaccard系数通常用于集合相似度计算,而在向量空间模型中,内积、Dice系数和夹角余弦是常用的计算相似度的方法。Jaccard不常用于向量,而是用于集合,但理论上也可以应用于二元向量表示的特殊情况。所以,选项D可以视为正确的。

**正确答案**是:A和B。
B是直接错误的,因为TF-IDF不保留文本的词序结构。A错误地解释了余弦相似度。