考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

一个词出现在不同文章中的次数称之为?
A. IDF
B. TF-IDF
C. DF
D. TF
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

正确答案是:C: DF

### 专业分析

在信息检索和文本挖掘领域,几个重要的概念涉及词频和文档频率:

1. **TF(Term Frequency)**:
- 描述一个词在文档中出现的频率。
- 计算方法:一个词在文档中出现的次数除以文档中的总词数。
- 作用:衡量词在特定文档中的重要性。

2. **DF(Document Frequency)**:
- 描述一个词出现在不同文档中的频率。
- 计算方法:在一组文档中,包含某个词的文档数量。
- 作用:衡量词在整个文档集合中的普遍性。

3. **IDF(Inverse Document Frequency)**:
- 是 DF 的倒数,并取对数,用于降低普遍出现词的重要性。
- 计算方法:\[ \text{IDF}(t) = \log\left( \frac{N}{1 + \text{DF}(t)} \right) \]
- \( N \) 是总文档数。
- \( \text{DF}(t) \) 是包含词 \( t \) 的文档数量。
- 作用:减少那些在多数文档中都出现的频繁词(如“the”、“is”)的影响。

4. **TF-IDF**:
- 是 TF 和 IDF 的组合,用来衡量一个词在特定文档中相对于整个文档集合的重要性。
- 计算方法:\[ \text{TF-IDF} = \text{TF} \times \text{IDF} \]
- 作用:帮助识别某个文档中特有的重要词汇,而不是常见词。

因此,一个词出现在不同文章中的次数称之为 **Document Frequency (DF)**。这衡量了该词在文档集合中的普遍性。