IDF值与词频关系分析-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

一个词越常出现在多篇文章中，其IDF会越接近？

A. 1

B. 0

C. -1

D. 10

上一题

下一题

题目解析

题目评论(0)

正确答案是：B: 0

### 专业分析：

IDF（Inverse Document Frequency，逆文档频率）是信息检索和文本挖掘中用于衡量一个词在文档集合中的重要性的一种指标。其计算公式为：

\[ \text{IDF}(t) = \log\left(\frac{N}{df(t)}\right) \]

其中：
- \( N \) 是文档的总数。
- \( df(t) \) 是包含词 \( t \) 的文档数。

我们来看几个关键点：

1. **IDF的意义**：
- 如果一个词在很多文章中出现，即 \( df(t) \) 很大，那么 \(\frac{N}{df(t)}\) 接近 1，导致 IDF 趋近于 \(\log(1) = 0\)。
- 因此，常出现的词其 IDF 值会接近 0。

2. **IDF应用的逻辑**：
- IDF用于降低在多数文档中都出现的常见词（比如“的”、“和”）的权重。
- 较低的IDF值表明该词在多数文档中出现，因此对区分文档的重要性较低。

因此，从定义和公式推导来看，常出现的词的IDF值会趋向于0，这也是为什么正确答案是B: 0。