为什么关键词提取需要IDF?-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

逆向文本频率（inversedocument frequency， IDF）是一个词语普遍重要性的度量。在关键词的撷取中为什么要引入逆向文本频率IDF呢？

A. 在越多的文章中出现过，说明重要性越高，则进行加权

B. 在越多的文章中出现过的次数越多，说明对我们的分析和统计没什么帮助，利用该数值进行降权

C. 一个词在一篇文章中出现的次数越多，说明越重要，利用该指数进行加权

D. 一个词如果是常用词，则统计时说明很重要，进行加权

上一题

下一题

题目解析

题目评论(0)

逆向文本频率idf，就是在越少的样本中出现，权重越高

正确答案是B: 在越多的文章中出现过的次数越多，说明对我们的分析和统计没什么帮助，利用该数值进行降权。

专业分析：

逆向文本频率（Inverse Document Frequency，IDF）是信息检索和文本挖掘中的一个重要概念，它用于衡量一个词语在整个语料库中的重要性。IDF的计算公式通常为：

\[ \text{IDF}(t) = \log \left( \frac{N}{df(t)} \right) \]

其中，\( N \) 是语料库中的文档总数，\( df(t) \) 是包含词语 \( t \) 的文档数。

引入IDF的主要原因是为了平衡词频（Term Frequency，TF）在文档中的权重。TF衡量的是一个词在单篇文档中出现的频率，而IDF则衡量的是这个词在整个语料库中的稀有程度。具体来说：

1. **常见词的降权**：一些词语（例如“的”、“是”等）在几乎所有文档中都会出现，但它们并不能很好地区分文档的主题。这些词的IDF值会较低，从而在计算TF-IDF时降低它们的权重。

2. **稀有词的加权**：一些词语（例如“逆向文本频率”）在少数文档中出现，但它们对这些文档的主题有很强的区分能力。这些词的IDF值会较高，从而在计算TF-IDF时提升它们的权重。

因此，选项B是正确的：在越多的文章中出现过的次数越多，说明对我们的分析和统计没什么帮助，利用该数值进行降权。IDF的引入正是为了降低那些在大多数文档中都出现的常见词的权重，从而突出那些在少数文档中出现但具有更高区分能力的词语。