自然语言处理中关键词建立方法-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

在中文的自然语言处理工作中，以下属于建立关键词的程序是？

A. 读取文献

B. 分词

C. 利用 Suffix String 将 Word 重整至最基本字型

D. 计算每个Word的IDF

上一题

下一题

题目解析

题目评论(0)

C是英文处理时需要的步骤，题干是中文，所以答案中不包括C，最终选ABD

正确答案是：B: 分词

专业分析：
在中文的自然语言处理（NLP）工作中，建立关键词的程序通常包括以下几个步骤：

1. **读取文献**：这是处理文本的初始步骤，读取文献是为了获取文本数据，但它本身并不涉及关键词的建立。

2. **分词**：中文文本处理中的一个关键步骤，因为中文文本没有天然的词间空格。分词是将连续的汉字序列切分成一个个有意义的词语。只有在分词之后，才能进一步分析和提取关键词。因此，分词是建立关键词的基础步骤之一。

3. **利用 Suffix String 将 Word 重整至最基本字型**：这通常不是中文NLP中的常见步骤，可能是指某些特定的语言处理任务，如词形还原（Lemmatization）或词干提取（Stemming），但在中文中应用较少。

4. **计算每个Word的IDF**：IDF（逆文档频率）是用来衡量一个词在整个语料库中的重要性，它通常用于TF-IDF算法中来提取关键词。然而，计算IDF是建立关键词的后续步骤，需要在已经完成分词和词频统计的基础上进行。

综上所述，分词是建立关键词的基础步骤，因此正确答案是B。