PaddlePaddle实现的DeepSpeech2模型,训练free_st_chinese_mandarin_corpus数据集训练的模型,源码地址:https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech
1
另一个关键字提取器(Yake) 使用文本功能自动提取关键字的无监督方法。 AKE! 是一种轻量级无监督自动关键字提取方法,该方法基于从单个文档中提取的文本统计特征来选择文本中最重要的关键字。 我们的系统不需要针对特定​​的文档集进行培训,也不必依赖于字典,外部语料库,文本大小,语言或领域。 为了展示我们建议的优点和重要性,我们将其与十种最新的无监督方法(TF.IDF,KP-Miner,RAKE,TextRank,SingleRank,ExpandRank,TopicRank,TopicalalPageRank,PositionRank和MultipartiteRank)进行比较,以及一种监督方法(KEA)。 在二十个数据集之上进行的实验结果(请参见下面的基准部分)表明,在许多不同大小,语言或领域的集合下,我们的方法明显优于最新方法。 除了此处描述的python包之外,我们还提供了一个,
1
UA-GEC:乌克兰语的语法错误纠正和流畅语料库 此存储库包含 UA-GEC 数据和随附的 Python 库。 数据 所有语料库数据和元数据都保存在./data 。 它有两个子文件夹用于 每个拆分(训练和测试)都有用于不同数据表示的更多子文件夹: ./data/{train,test}/annotated以带存储文档 ./data/{train,test}/source和./data/{train,test}/target存储文档的原始版本和更正版本。 这些目录中的文本文件是没有注释标记的纯文本。 这些文件是根据带注释的数据生成的,在某种程度上是多余的。 我们保留它们是因为这种格式在某些用例中很方便。 元数据 ./data/metadata.csv存储每个文档的元数据。 这是一个包含以下字段的 CSV 文件: id (str):文档标识符。 author_id (str):文档作者标
1
chinese_abstractive_corpus 语料名称 教育培训行业抽象式自动摘要中文语料库 语料简介 自动文摘分为两种: 抽取式 抽象式 语料库收集了教育培训行业主流垂直媒体的历史文章(截止到2018年6月5日)大约24500条数据集。主要是为训练抽象式模型而整理,每条数据有summary(摘要)和text(正文),两个字段,Summary字段均为作者标注。 压缩包大约 60 MB,解压后大约 150 MB。 格式如下: summary{{...}} text{{...}} 关于和抽象式自动文摘更多研究成果可参考: 作者对两种文摘方式做了深入对比,并且提供了实验结论。 关于训练集和测试集 并未明确划分训练集和测试集合,请使用者根据自己的实际情况按照比例划分 作者联系方式 wechat : wonderfulcorporation
2021-07-13 21:39:00 59.81MB
1
corpus, 另一个CSS工具包基本上是我在大多数项目中使用的东西 语料库 CSS内容集合语料库是另一个CSS工具包。 它基本上是我自己发现的东西的集合,我会回到每个新项目中去。 方法使用 Flexbox,基于 viewport高度和百分比 based widths influenced影响 basscs
2021-07-10 11:19:04 15KB 开源
1
字体语料库 该存储库最初侧重于汇编与自然历史收藏社区和数字人文社区中进行的 OCR 活动相关的数据。 这些社区面临着需要从包含各种字体的文档和图像中提取高质量文本的挑战。 该存储库的目标是编译标准化格式的字体样本语料库,以帮助自然历史收藏和数字人文社区显着提高由 Tesseract 和 OCRopus 等 OCR 引擎生成的文本质量。 有关文件类型和格式的详细信息,请参阅文档。
2021-07-07 21:03:36 302KB
1
整合当前可以找到的NER语料集,并把格式统一化,可以直接训练。
2021-07-07 14:20:57 23.04MB NER语料集 NLP 语料集 corpus
1
语料库英文原版新书Biber:Corpus+Linguistics[2000][P].djvu
2021-06-20 22:11:31 6.55MB 语料库 英文 原版 新书
1
整合格式为 :字 BIO标签 格式,可以直接使用主流NER模型进行训练
2021-06-12 16:10:21 11.52MB NER NLP CORPUS
1
一共是2800首唐诗,情感标注为三类,-1为消极,0为中性,1为积极。由于是人工标注,与标注者的诗歌鉴赏水平有关,准确性有待验证。
2021-05-09 20:58:05 671KB Tang poetry corpus sentiment
1