词频(Term Frequency,TF) = (某个词w在di 篇文章中出现的次数) /(di 篇文章的总词数),值域范围[0,1)。例如,假设文档di 由1000个词组成,其中词w共出现了3次,那么这个词的词频就等于3/1000。逆向文档频率 (Inverse Document Frequency,IDF) = log(总的文档数N / (1+出现词w的文档数n)) 。 IDF其实衡量了词w在每篇文档中提供的信息量。即IDF可以反映w的独特性 。TF-IDF实际上是TF*IDF,可以得到词的重要性。可以看出TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
正确答案是A: TF×IDF值越大,则该词成为关键词的概率就越大。
专业分析如下:
TF(词频)表示一个词在某一文档中出现的频率,反映了该词在该文档中的重要性。TF的计算公式为:
\[ \text{TF} = \frac{\text{某词在文档中出现的次数}}{\text{文档中的总词数}} \]
IDF(逆文本频率指数)用于衡量一个词在整个语料库中的普遍重要性。IDF的计算公式为:
\[ \text{IDF} = \log \left( \frac{\text{总文档数}}{\text{包含该词的文档数}} \right) \]
TF-IDF是TF和IDF的乘积,用于衡量一个词在特定文档中的重要性,同时降低那些在整个语料库中出现频率很高的词(如“的”、“是”等)的权重。TF-IDF的计算公式为:
\[ \text{TF-IDF} = \text{TF} \times \text{IDF} \]
因此,TF×IDF值越大,说明该词在该文档中出现的频率高且在整个语料库中出现的频率低,这样的词更有可能是该文档的关键词。所以,选项A是正确的。