基于条件随机场对中文案件语料进行命名实体识别。在学习知识图谱理论课时,我们知道实体(Entity)是知识图谱的基本单位,也是承载信息的重要语言单位。实体识别是知识图谱应用的重要技术。目前实体识别主要有三种方法:
基于规则和词典的实体识别
基于统计机器学习的实体识别
基于深度学习神经网络的实体识别
条件随机场(Conditional random field,CRF)是一种条件概率分布模型 P(Y|X) ,表示的是给定一组输入随机变量 X 的条件下另一组输出随机变量 Y 的马尔可夫随机场。
CRF 是一个序列化标注算法(sequence labeling algorithm),接收一个输入序列如X=(x1, x2,…, xn)并且输出目标序列Y=(y1, y2,…, yn) ,也能被看作是一种seq2seq模型。这里使用大写 X,Y 表示序列。例如,在词性标注任务中,输入序列为一串单词,输出序列就是相应的词性。
除了词性标注之外,CRF还可以用来做chunking,命名实体识别等任务。一般地,输入序列X被称为 observations, Y叫作 states。
1