随着医疗行业信息技术的引入,该行业的信息化和自动化水准不断提高。医学
文本信息处理技术正逐渐成为一个新的研究热点。医疗文本,以电子病历为代表,
包含了大量丰富的医疗信息,是进行疾病预测、个性化信息推荐、临床决策支持、
用药模式挖掘等的重要资源,并且可以以此为基础进行医院机构服务价值的衡量。
医学文本中尽管蕴藏着丰富的医疗知识,但处理起来也更加困难。由于以电子病历
为主的医疗文本中包括大量非结构化的自由文本以及图像影像信息,且医生自行
录入可能导致文本的拼写错误、医学名词简写以及不同医生不同地区的惯用语,电
子病历中所包含的医疗信息还不能被计算机有效利用。因此,机器学习和自然语言
处理相关技术将在医学文本的分析和挖掘中发挥重要作用。
为了更好地探索和利用医学文本,特别是电子病历的半结构化和非结构化信
息,对其中非结构化自由文本进行标准化和结构化非常的重要,而医疗信息对时间
特征具有较高的敏感性,使得时间信息也成为了更好分析医疗文本必不可少的因
素。传统的文本分类需要先进行一系列预处理和特征工程的建模,在医疗文本中存
在大量的专业术语和知识、不准确的分词或难以理解的语义特征会影响分类的正