关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作
建立关键词的程序(抽取层次:词)
- 读取文献
- 分词(中文需要)
- 利用 Suffix String 将 Word 重整至最基本字型(Stem Word)(英文需要)
- 计算每个 Word 的IDF
- 利用一个阀值(Threshold)
- 选出代表文献的关键词及其IDF
- 产生Stop Words
C是英文处理时需要的步骤,题干是中文,所以答案中不包括C,最终选ABD
正确答案是:B: 分词。
专业分析:
在自然语言处理(NLP)工作中,建立关键词的过程通常涉及以下几个步骤:
1. **读取文献(A)**:这是数据预处理的第一步,主要是获取和加载文本数据,但这一步并不直接涉及关键词的建立。
2. **分词(B)**:分词是将连续的文本划分为一个个单独的词语。在中文自然语言处理中,分词是非常重要的一步,因为中文文本中词语之间没有空格分隔。分词的结果将直接影响后续的关键词提取和文本分析。
3. **利用 Suffix String 将 Word 重整至最基本字型(C)**:这个选项描述的操作不太明确,通常在NLP中不常见。Suffix String(后缀数组)和词形还原(stemming/lemmatization)是不同的概念,前者用于字符串模式匹配,后者用于将词语还原到其基本形式。中文处理中,词形还原的应用也较少,因为中文词语本身没有词形变化。
4. **计算每个Word的IDF(D)**:IDF(逆文档频率)是用于衡量一个词语在文档集合中的重要性的指标。虽然计算IDF是关键词提取的重要步骤,但它依赖于分词后的结果,因此不是建立关键词的初始步骤。
综上所述,分词是建立关键词的基础步骤,因此正确答案是B。