CDA LEVEL III 模拟题（一）数据分析师考试常考内容-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

向量空间模型是信息检索技术，下面有关向量空间模型（VSM）的描述中，错误的是：

A. 以向量来表示文档后，两者的夹角越小说明相似度越高

B. 文本特征词的向量权重可通过TF-IDF实现，从而保留文本词序结构信息

C. 在向量空间模型中，当有新文档加入时，需要重新计算特征词的权重

D. 基于向量的文本相似度计算中，除了内积、Dice系数、夹角余弦，还可用Jaccard方法

上一题

下一题

题目解析

题目评论(0)

向量空间模型是信息检索技术，B选择说的是文本表示的内容。

正确答案是：B

**分析：**

向量空间模型（Vector Space Model, VSM）是信息检索和文本相似度计算的常用方法。它将文档和查询表示为向量，并通过计算这些向量之间的相似度来进行检索和排序。以下是对各个选项的分析：

A: **以向量来表示文档后，两者的夹角越小说明相似度越高**
- 这是正确的。向量空间模型中，两个向量之间的夹角越小，说明它们之间的相似度越高。常用的度量方法是余弦相似度。

B: **文本特征词的向量权重可通过TF-IDF实现，从而保留文本词序结构信息**
- 这是错误的。TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于评估一个词语在一个文档集或一个语料库中的重要程度的方法。TF-IDF主要用于衡量词语的重要性，但它不保留文本的词序结构信息。向量空间模型将文档表示为词频向量，这种表示方式忽略了词语的顺序。

C: **在向量空间模型中，当有新文档加入时，需要重新计算特征词的权重**
- 这是正确的。因为TF-IDF中的IDF部分依赖于整个文档集的词频，当有新文档加入时，需要重新计算IDF值。

D: **基于向量的文本相似度计算中，除了内积、Dice系数、夹角余弦，还可用Jaccard方法**
- 这是正确的。Jaccard系数也是一种常用的相似度度量方法，尤其在集合相似度计算中。

综上所述，选项B的描述是错误的，因此正确答案是B。