机器学习中的向量空间模型考点-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

下面有关向量空间模型（VSM）的描述中，错误的是：

A. 以向量来表示文档后，两者的夹角余弦值越小说明相似度越高

B. 文本特征词的向量权重可通过TF-IDF实现，从而保留文本词序结构信息

C. 在向量空间模型中，当有新文档加入时，需要重新计算特征词的权重

D. 基于向量的文本相似度计算中，除了内积、Dice系数、夹角余弦，还可用Jaccard方法

上一题

下一题

题目解析

题目评论(0)

在向量空间模型（VSM）中，对文档和查询的相似度进行计算时，可能存在一些误解或错误的理解。以下是对各选项的分析：

A: 以向量来表示文档后，两者的夹角余弦值越小说明相似度越高
- **分析**：在向量空间模型中，夹角余弦值越大（接近1），说明两个向量越接近，即相似度越高。夹角余弦值越小（接近0），说明两个向量差异越大，相似度越低。因此，选项A是错误的。

B: 文本特征词的向量权重可通过TF-IDF实现，从而保留文本词序结构信息
- **分析**：TF-IDF是一种用来衡量一个单词在文档集合中重要性的方法，但它不保留文本的词序结构信息。它只关注单词的出现频率及其在整个文档集中的逆文档频率。因此，选项B是错误的。

C: 在向量空间模型中，当有新文档加入时，需要重新计算特征词的权重
- **分析**：加入新文档可能会改变整个文档集合中词的分布，因此TF-IDF等权重可能需要重新计算以反映新的文档集结构。因此，选项C是正确的。

D: 基于向量的文本相似度计算中，除了内积、Dice系数、夹角余弦，还可用Jaccard方法
- **分析**：Jaccard系数通常用于集合相似度计算，而在向量空间模型中，内积、Dice系数和夹角余弦是常用的计算相似度的方法。Jaccard不常用于向量，而是用于集合，但理论上也可以应用于二元向量表示的特殊情况。所以，选项D可以视为正确的。

**正确答案**是：A和B。
B是直接错误的，因为TF-IDF不保留文本的词序结构。A错误地解释了余弦相似度。