词频(Term Frequency,TF) = (某个词w在di 篇文章中出现的次数) /(di 篇文章的总词数),值域范围[0,1)。例如,假设文档di 由1000个词组成,其中词w共出现了3次,那么这个词的词频就等于3/1000。逆向文档频率 (Inverse Document Frequency,IDF) = log(总的文档数N / (1+出现词w的文档数n)) 。 IDF其实衡量了词w在每篇文档中提供的信息量。即IDF可以反映w的独特性 。
TF-IDF实际上是TF*IDF,可以得到词的重要性。可以看出TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
正确答案是A: TF×IDF值越大,则该词成为关键词的概率就越大。
专业分析:
1. **TF(词频)**:表示某个词在一个文档中出现的频率。TF越高,说明该词在文档中出现的次数越多。
2. **IDF(逆文本频率指数)**:表示某个词在所有文档中出现的稀有程度。IDF越高,说明该词在所有文档中出现的次数越少,即该词在整个文档集合中越稀有。
3. **TF-IDF**:是TF和IDF的乘积,用于衡量一个词在一个文档中的重要性。公式为:
\[
\text{TF-IDF}(t, d) = \text{TF}(t, d) \times \text{IDF}(t)
\]
其中,\( t \) 表示词,\( d \) 表示文档。
4. **分析**:
- **A选项**:TF×IDF值越大,则该词成为关键词的概率就越大。这个说法是正确的。因为当一个词在当前文档中频繁出现(TF高),且在其他文档中较少出现(IDF高),这个词很可能是当前文档的关键词。
- **B选项**:TF/IDF值越大,则该词成为关键词的概率就越大。这个说法不正确,因为TF/IDF的计算方式不符合TF-IDF的定义。
- **C选项**:TF/IDF值越小,则该词成为关键词的概率就越大。这个说法同样不正确,因为TF/IDF的计算方式不符合TF-IDF的定义。
- **D选项**:TF×IDF值越大,则该词成为关键词的概率就越小。这个说法是不正确的,正好与A选项相反。
综上所述,正确答案是A。