HanLP: Han Language Processing | | | | | 面向生产环境的多语种自然语言处理工具包,基于PyTorch和TensorFlow 2.x双引擎,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 借助世界上最大的多语种语料库,HanLP2.1支持包括简繁中英日俄法德在内的104种语言上的10种联合任务:分词(粗分、细分2个标准,强制、合并、校正3种)、词性标注(PKU、863、CTB、UD四套词性规范)、命名实体识别(PKU、MSRA、OntoNotes三套规范)、依存句法分析(SD、UD规范)、成分句法分析、语义依存分析(SemEval16、DM、PAS、PSD四套规范)、语义角色标注、词干提取、词法语法特征提取、抽象意义表示(AMR)。 量体裁衣,HanLP提供RESTful和nati
1
新词发现作为自然语言处理领域的一项基础研究,一直受到学术界和企业界的广泛关注。将新词发现问题转换为确定词语边界问题。首先对语料进行中文分词,然后统计"散串",最后提出一种基于词内部结合度和边界自由度的新词发现方法。通过在大规模语料上进行新词发现实验,验证了该方法的有效性。今后的研究重点将放在如何有效地识别低频新词上,以提高系统的整体性能。
2021-02-26 12:04:07 249KB 新词发现; 内部结合度; 边界自由度
1