考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

逆向文本频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。在关键词的撷取中为什么要引入逆向文本频率IDF呢?
A. 在越多的文章中出现过,说明重要性越高,则进行加权
B. 在越多的文章中出现过的次数越多,说明对我们的分析和统计没什么帮助,利用该数值进行降权
C. 一个词在一篇文章中出现的次数越多,说明越重要,利用该指数进行加权
D. 一个词如果是常用词,则统计时说明很重要,进行加权
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

逆向文本频率idf,就是在越少的样本中出现,权重越高

正确答案是:B: 在越多的文章中出现过的次数越多,说明对我们的分析和统计没什么帮助,利用该数值进行降权。

### 专业分析:

关键词的撷取通常使用TF-IDF(Term Frequency-Inverse Document Frequency)方法,其中包含两个主要部分:词频(TF)和逆向文本频率(IDF)。

1. **词频(TF)**:
- 表示一个词在文档中出现的频率。一个词在文档中出现的次数越多,其TF值越高,表示该词在该文档中的重要性越大。

2. **逆向文本频率(IDF)**:
- 表示一个词在整个文档集合中的普遍重要性。计算公式一般为IDF = log(总文档数 / 包含该词的文档数)。
- 如果一个词在很多文档中都出现,那么这个词可能是一个常见词,对区分文档内容的贡献较小,所以IDF值会较低。
- 反之,如果一个词在较少文档中出现,则IDF值会较高,表示该词对区分文档内容的重要性较大。

### 为什么引入IDF:

- **降权常用词**:常见词(如“的”、“是”等)在很多文档中都会出现,对区分文档内容的帮助不大。IDF通过降低这些常见词的权重,使得这些词对整体分析的影响减小。
- **提升独特词**:一些特定词汇在少数文档中出现,这些词汇能更好地反映文档的特征。IDF通过提高这些词的权重,使得这些词在分析中更具代表性。

因此,选项B是正确的,因为它准确地描述了IDF的作用,即在越多的文章中出现过的次数越多,说明对我们的分析和统计没什么帮助,所以利用该数值进行降权。