4.1 电子病历实体关系抽取任务
电子病历命名实体关系抽取主要研究从电子病
历中抽取疾病、症状、检查和治疗这几类实体间的
关系. 这些实体关系体现了患者健康状况信息和针
对患者的医疗处置措施, 也体现了医生的专业知识.
如下面的例子:
1) 头 CT 检查显示腔隙性脑梗死 (检查 “头
CT” 证实了疾病 “腔隙性脑梗死”);
2) 患者彩超结果汇报轻度脂肪肝、慢性胆囊炎,
给予饮食指导, 继续治疗方案 (“彩超” 证实了 “轻度
脂肪肝” 和 “慢性胆囊炎”, “饮食指导” 施加于 “轻
度脂肪肝” 和 “慢性胆囊炎”).
电子病历实体关系抽取任务在命名实体识别基
础上展开, 对病历文本中同一个语句中的两个命名
实体赋予预定义的关系类型, 因而该任务转化为分
类问题, 通常采用基于机器学习的方法实现, 评价指
标采用精确度、召回率和 F 值. 目前电子病历实体
关系只限于一个句子范围内两个实体之间的关系.
Uzuner 首先对医疗实体关系抽取进行了开创
性的研究, 详细定义了六大类医疗实体关系: 当前疾
病和治疗的关系、可能的疾病和治疗的关系、疾病
(包括当前的和可能的) 和检查的关系、疾病和症状
的关系、当前症状和治疗的关系、可能的症状和治
疗的关系[3]. 如果已经定义了修饰识别任务, 实现了
疾病和症状的修饰识别, 那么在关系抽取时, 可以不
考虑修饰的影响, 直接抽取实体间的关系, 然后借助
实体的修饰, 可以得到文献 [3] 定义的上述各类关
系. 所以, 在 I2B2 2010 评测中, 实体关系的定义没
有考虑修饰的因素. I2B2 2010 首次对电子病历命
名实体关系进行了系统的分类[12], 这些关系包括医
疗问题和医疗问题之间的关系、医疗问题和检查之
间的关系、医疗问题和治疗之间的关系. 这三类关系
以医疗问题为中心, 反映了电子病历面向医疗问题
的信息组织方式. 这三类关系只限于一个句子范围
内两个实体之间的关系. 表 5 详细列出了医疗问题、
检查和治疗这三类实体间的关系.
针对中文电子病历特点, 医疗问题被拆分为疾
病和症状,那么在定义实体关系时,也应作相应调整.
主要体现在两方面: 1) 医疗问题和治疗 (或检查) 的
关系转变为疾病和治疗的关系以及症状与治疗的
关系, 医疗问题和检查的关系也转变为疾病和检查
的关系以及症状和检查的关系; 2) 医疗问题之间的
关系替换为疾病和症状的关系 (疾病导致了症状)、
疾病和疾病的关系 (疾病导致了另一个疾病)、症状
和症状的关系 (症状伴随另一个症状).
自动抽取这几类实体间的关系可以构造患者健
康状况的简明摘要, 医生可以预先快速浏览病人的
信息, 后续再关注特定的细节. 除了可以用作医疗研
表 4 疾病和症状的修饰识别方法总结
Table 4 Summarization of methods for assertion classification
作者 方法 用到的资源 数据 评价 (F 值)
Chapman 等[13] (NegEx) 规则 正则表达式规则 出院小结 0.853
Mutalik 等[105] (Negfinder) 规则 正则表达式规则、句法规则 自建语料 0.965
Sohn 等[106] (DepNeg) 规则 依存规则 I2B2 2010 评测数据 0.838
Harkema 等[107] (ConText) 规则 正则表达式规则、触发词 6 种类型的病历文本 0.76∼ 0.93
Uzuner 等[108] SVM / 三个机构的病历 0.35∼ 0.98
Grouin 等[110] SVM NegEx I2B2 2010 评测数据 0.931
Jiang 等[97] SVM MedLEE I2B2 2010 评测数据 0.931
de Bruijn 等[99] SVM cTAKES I2B2 2010 评测数据 0.936
Clark 等[111] CRF、最大熵 语义分类词典、状态规则 I2B2 2010 评测数据 0.934
1