建立关键词的程序(抽取层次:词) - 读取文献 - 分词(中文需要) - 利用 Suffix String 将 Word 重整至最基本字型(Stem Word)(英文需要) - 计算每个 Word 的IDF - 利用一个阀值(Threshold) - 选出代表文献的关键词及其IDF - 产生Stop Words由此,可以看出本题选C
在自然语言处理工作中,自动建构关键词时,经常采用的方法是Inverse Document Frequency (IDF)。因此,正确答案是:
C: Inverse Document Frequency (IDF)
专业分析如下:
1. **Inverse Document Frequency (IDF)**:
- IDF 是一种统计度量,旨在评估一个词在整个语料库中的重要性。IDF 的计算公式为:IDF(t) = log_e(Total number of documents / Number of documents with term t in it)。
- IDF 高的词通常在文档中出现频率低,但在特定文档中非常重要,因此适合作为关键词。
- 在TF-IDF(Term Frequency-Inverse Document Frequency)模型中,IDF 与词频(TF)结合使用,以确定每个词在文档中的重要性。
2. **Controlled Vocabulary(控制字汇)**:
- 这是指使用预定义的词汇表来标记和分类文档内容。虽然它有助于标准化,但它不是自动建构关键词的常用方法,因为它依赖于人工定义的词汇表。
3. **Inversion of Terms(逐项反转)**:
- 这不是一种常见的自然语言处理技术,通常与自动建构关键词无关。
4. **Full-Text Scanning**:
- 这指的是全文扫描技术,用于搜索和索引文档内容。虽然它可以用于获取文档中的所有词,但并不直接用于自动建构关键词。
综上所述,IDF 是自动建构关键词时经常采用的方法,因此选项C是正确的。