自然语言理解
自然语言处理—基本任务
《人工智能应用基础》
CONTENTS
内 容
02
自然语言处理基本任务
《人工智能应用基础》
中文文本分词、文本表示和命名实体识别
中文文本中词与词之间没有明确的分割标记,而是以连续字符串形式呈现。所以,任何中文自然语言处理任务都必须解决中文序列切分的问题——中文分词。
《人工智能应用基础》
中文分词研究成果被应用到自然语言处理的不同任务中,包括信息检索、机器翻译、语音识别、文本错误识别、中文繁简体自动转换、自动问答等。
中文分词模型算法主要经历了三个阶段,分别是基于匹配的词典分词、基于标注的机器学习算法和基于理解的深度学习算法。
最初的中文分词研究人员认为需要先建立词典,再通过匹配的方法进行分词,这种方法称为机械分词。
《人工智能应用基础》
主要研究问题包括:如何构建一个完备的词典;随着词典规模的不断增加,如何优化词典的存储,更易于查找以提升检索效率;匹配算法如何设计;匹配中出现的歧义切分如何消解。
常见的匹配算法包括:正向最大匹配法或正向最长词优先匹配法(Forward Maximum Matching,FMM)、逆向最大匹配法(Rever