考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。关于TF与IDF,以下说法正确的是?
A. TF×IDF值越大,则该词成为关键词的概率就越大
B. TF/IDF值越大,则该词成为关键词的概率就越大
C. TF/IDF值越越小,则该词成为关键词的概率就越大
D. TF×IDF值越大,则该词成为关键词的概率就越小
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

词频(Term Frequency,TF) = (某个词w在di 篇文章中出现的次数) /(di 篇文章的总词数),值域范围[0,1)。例如,假设文档di 由1000个词组成,其中词w共出现了3次,那么这个词的词频就等于3/1000。逆向文档频率 (Inverse Document Frequency,IDF) = log(总的文档数N / (1+出现词w的文档数n)) 。 IDF其实衡量了词w在每篇文档中提供的信息量。即IDF可以反映w的独特性 。TF-IDF实际上是TF*IDF,可以得到词的重要性。可以看出TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

正确答案是A: TF×IDF值越大,则该词成为关键词的概率就越大。

专业分析如下:

TF(词频)表示一个词在某一文档中出现的频率,反映了该词在该文档中的重要性。TF的计算公式为:
\[ \text{TF} = \frac{\text{某词在文档中出现的次数}}{\text{文档中的总词数}} \]

IDF(逆文本频率指数)用于衡量一个词在整个语料库中的普遍重要性。IDF的计算公式为:
\[ \text{IDF} = \log \left( \frac{\text{总文档数}}{\text{包含该词的文档数}} \right) \]

TF-IDF是TF和IDF的乘积,用于衡量一个词在特定文档中的重要性,同时降低那些在整个语料库中出现频率很高的词(如“的”、“是”等)的权重。TF-IDF的计算公式为:
\[ \text{TF-IDF} = \text{TF} \times \text{IDF} \]

因此,TF×IDF值越大,说明该词在该文档中出现的频率高且在整个语料库中出现的频率低,这样的词更有可能是该文档的关键词。所以,选项A是正确的。