chinese_abstractive_corpus 语料名称 教育培训行业抽象式自动摘要中文语料库 语料简介 自动文摘分为两种: 抽取式 抽象式 语料库收集了教育培训行业主流垂直媒体的历史文章(截止到2018年6月5日)大约24500条数据集。主要是为训练抽象式模型而整理,每条数据有summary(摘要)和text(正文),两个字段,Summary字段均为作者标注。 压缩包大约 60 MB,解压后大约 150 MB。 格式如下: summary{{...}} text{{...}} 关于和抽象式自动文摘更多研究成果可参考: 作者对两种文摘方式做了深入对比,并且提供了实验结论。 关于训练集和测试集 并未明确划分训练集和测试集合,请使用者根据自己的实际情况按照比例划分 作者联系方式 wechat : wonderfulcorporation
2021-07-13 21:39:00 59.81MB
1
HanLP: Han Language Processing | | | | | 面向生产环境的多语种自然语言处理工具包,基于PyTorch和TensorFlow 2.x双引擎,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 借助世界上最大的多语种语料库,HanLP2.1支持包括简繁中英日俄法德在内的104种语言上的10种联合任务:分词(粗分、细分2个标准,强制、合并、校正3种)、词性标注(PKU、863、CTB、UD四套词性规范)、命名实体识别(PKU、MSRA、OntoNotes三套规范)、依存句法分析(SD、UD规范)、成分句法分析、语义依存分析(SemEval16、DM、PAS、PSD四套规范)、语义角色标注、词干提取、词法语法特征提取、抽象意义表示(AMR)。 量体裁衣,HanLP提供RESTful和nati
1
免安装,双击使用。输入文章即可自动摘要,可以选择200、300、400、500字,方便使用
1
自述文件 新浪微博自动文摘系统 给定微博话题数据集,从中筛选出前N(N> 0)条微博,作为话题摘要。 问题实质:短文本多文档自动文摘。 流程:数据-算法-评估-展现 数据获取与预先:如何通过编写爬虫获取网站数据? 摘要算法:如何使用Python及其相关工具集实现算法?(阅读论文和资料理解算法,理解公式意味着,将公式转换为实际代码,也有很多算法在Python中已经实现,可以直接使用) 摘要评估:如何对不同算法的结果进行评估?(ROUGE评估方式,中文评估注意点) 系统展现:如何实现前端展现和后台管理的系统?(Flask,Flask-Admin; Bootstrap,E-Charts)如何部署系统
2021-05-13 16:11:53 49.59MB nlp flask textrank weibo
1
本科毕业设计,多文档自动摘要,摘要生成,采用聚类算法生成摘要,简单易调试,
2021-04-27 21:20:29 34.37MB summary
1
Java 实现的自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 自动摘要 短语提取 拼音 简繁转换。.zip,自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁
2021-04-16 19:40:03 21.45MB 开源项目
1
文本摘要数据集 CNN与Daily News 未经过处理的原始数据集。
1
文件有训练测试以及验证,格式为.bin,FINISHED FIES
1
新闻视频自动摘要生成算法,跟视频检索有关方面相关的论文
2021-03-25 15:26:01 1.22MB 视频摘要
1
自动摘要是一款适合新闻类与评论类文章的摘要软件。可限制摘要长度。是许多文章编辑工作者必备的软件。它的主要功能就是帮助你自动提取文章的精华部分,比你自己阅读后提取要
2021-03-17 21:47:23 378KB 自动摘要软件 超级自动摘要 v1.3
1