字、词、词组、概念 (Single Term or Phrase Term)或N-Gram都是文件语意的抽取层次的单位
正确答案是:B: 词
专业分析:
在自然语言处理(NLP)和信息抽取的领域,语义的抽取通常以词为单位。这是因为词是语言中最基本的语义单元,能够承载具体的意义并在上下文中发挥作用。以下是对各选项的分析:
A: 字
字是语言的最小单位,但单个字通常不能独立表达完整的意义,特别是在中文中,一个字可能有多种解释,必须结合其他字才能准确表达意思。
B: 词
词是语言中最基本的语义单元,具有独立的语义。词可以独立或与其他词组合形成更复杂的语义结构,因此,词是进行语义抽取的常用单位。
C: 词组
词组是由多个词组成的语义单元,虽然它们能够表达更复杂的意义,但在实际应用中,以词为单位进行初步的语义抽取,然后再考虑词组的组合,更为常见。
D: N-Gram
N-Gram是一种基于词或字符序列的统计模型,通常用于语言模型和文本生成。在语义抽取中,N-Gram更多用于捕捉上下文关系,而不是直接作为语义抽取的基本单位。
因此,词是进行语义抽取的最合理和常用的单位。