CDA III科目数据分析师考试中的TF-IDF概念解析-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。关于TF与IDF，以下说法正确的是？

A. TF×IDF值越大，则该词成为关键词的概率就越大

B. TF/IDF值越大，则该词成为关键词的概率就越大

C. TF/IDF值越越小，则该词成为关键词的概率就越大

D. TF×IDF值越大，则该词成为关键词的概率就越小

上一题

下一题

题目解析

题目评论(0)

词频（Term Frequency，TF） = (某个词w在di 篇文章中出现的次数) /(di 篇文章的总词数)，值域范围[0,1)。例如，假设文档di 由1000个词组成，其中词w共出现了3次，那么这个词的词频就等于3/1000。逆向文档频率（Inverse Document Frequency，IDF） = log(总的文档数N / (1+出现词w的文档数n)) 。 IDF其实衡量了词w在每篇文档中提供的信息量。即IDF可以反映w的独特性。TF-IDF实际上是TF*IDF，可以得到词的重要性。可以看出TF-IDF是一种统计方法，用以评估某一字词对于一个文件集或一个语料库的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

正确答案是A: TF×IDF值越大，则该词成为关键词的概率就越大。

专业分析如下：

TF（词频）表示一个词在某一文档中出现的频率，反映了该词在该文档中的重要性。TF的计算公式为：
\[ \text{TF} = \frac{\text{某词在文档中出现的次数}}{\text{文档中的总词数}} \]

IDF（逆文本频率指数）用于衡量一个词在整个语料库中的普遍重要性。IDF的计算公式为：
\[ \text{IDF} = \log \left( \frac{\text{总文档数}}{\text{包含该词的文档数}} \right) \]

TF-IDF是TF和IDF的乘积，用于衡量一个词在特定文档中的重要性，同时降低那些在整个语料库中出现频率很高的词（如“的”、“是”等）的权重。TF-IDF的计算公式为：
\[ \text{TF-IDF} = \text{TF} \times \text{IDF} \]

因此，TF×IDF值越大，说明该词在该文档中出现的频率高且在整个语料库中出现的频率低，这样的词更有可能是该文档的关键词。所以，选项A是正确的。