考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

自然语言处理工作中,在自动建构关键词(非控制字汇)时,经常采用的方法是?
A. Controlled Vocabulary(控制字汇)
B. Inversion of Terms(逐项反转 )
C. Inverse Document Frequency (IDF)
D. Full-Text Scanning
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

建立关键词的程序(抽取层次:词) -  读取文献 -  分词(中文需要) -  利用 Suffix String 将 Word 重整至最基本字型(Stem Word)(英文需要) -  计算每个 Word 的IDF -  利用一个阀值(Threshold)    -  选出代表文献的关键词及其IDF    -  产生Stop Words由此,可以看出本题选C

在自然语言处理工作中,自动建构关键词时,经常采用的方法是Inverse Document Frequency (IDF)。因此,正确答案是:

C: Inverse Document Frequency (IDF)

专业分析如下:

1. **Inverse Document Frequency (IDF)**:
- IDF 是一种统计度量,旨在评估一个词在整个语料库中的重要性。IDF 的计算公式为:IDF(t) = log_e(Total number of documents / Number of documents with term t in it)。
- IDF 高的词通常在文档中出现频率低,但在特定文档中非常重要,因此适合作为关键词。
- 在TF-IDF(Term Frequency-Inverse Document Frequency)模型中,IDF 与词频(TF)结合使用,以确定每个词在文档中的重要性。

2. **Controlled Vocabulary(控制字汇)**:
- 这是指使用预定义的词汇表来标记和分类文档内容。虽然它有助于标准化,但它不是自动建构关键词的常用方法,因为它依赖于人工定义的词汇表。

3. **Inversion of Terms(逐项反转)**:
- 这不是一种常见的自然语言处理技术,通常与自动建构关键词无关。

4. **Full-Text Scanning**:
- 这指的是全文扫描技术,用于搜索和索引文档内容。虽然它可以用于获取文档中的所有词,但并不直接用于自动建构关键词。

综上所述,IDF 是自动建构关键词时经常采用的方法,因此选项C是正确的。