随着大数据和人工智能的发展, 将人工处理专利的方式转换为自动化处理成为可能. 本文结合卷积神经网络(CNN)提取局部特征和双向长短记忆神经网络(BiLSTM)序列化提取全局特征的优势, 在BiLSTM隐藏层引入注意力机制(Attention机制), 提出了针对中文专利文本数据的BiLSTM_ATT_CNN组合模型. 通过设计多组对比实验, 验证了BiLSTM_ATT_CNN组合模型提升了中文专利文本分类的准确率.
1
基于知识话题模型的文本蕴涵识别与面向中文专利文献的有标记并列结构的统计分析
2021-08-15 01:36:51 4.17MB #资源分享达人#
关键词提取是诸多文本挖掘任务的前置任务,其精度直接影响了下游任务的性能。 以中文专利为研究对象,针对专利文本的特点,将关键词提取问题转换成词向量聚类问题,提出了一种基于cw2vec词向量的关键词提取方法,称为KEC。该方法首先利用科技文献的关键词以及开源词典构建领域词典;接着,基于领域词典对专利文本进行预处理获取候选关键词,并采用构建cw2vec模型获得候选关键词的词向量表示;最后,采用聚类算法提取最终的关键词。在真实的专利数据集上进行了实验验证,结果表明KEC在精确率、召回率、综合指标F1等指标项上优于现有的其他基于词聚类的关键词提取方法。
2021-04-30 17:03:00 1.29MB 中文专利 词向量 关键词提取
1