近年来,互联网信贷市场迅猛发展,多角度多信息源充分了解贷款申请人的信用情况显得愈发重要。法院的案件裁判文书的权威性、规范性以及其官方可得性,使其成为贷款申请人信用评估的重要数据源。命名实体识别技术在司法领域的应用亟待探索。针对网上公开的刑事裁判文书进行概要信息提取,构建基于罪名相关成分标注语料库的隐马尔科夫模型和最大熵马尔科夫模型,并利用其识别提取裁判文书中的被告人及其罪名等关键司法信息,可以为互联网信贷平台的信用风险管理工作提供更充分的信息资源。开放性测试结果显示基于罪名相关成分标注的HMM和MEMM的平均F值分别达到了87.79%、90.25%,说明提出的方法克服了裁判文书格式的差异和罪名实体识别的困难,具有较好的刑事裁判文书概要信息提取效果。
1