1 Billion Word Language Model Benchmark R13 Output 是一套新的基准语料库,被用于衡量和统计语言建模进展,凭借近 10 亿字的培训数据,该基准测试可以快速评估新的语言建模技术,并将其与其他新技术相结合。 该数据集由康奈尔大学于 2013 年发布,主要发布人有 Ciprian Chelba、Tomas Mikolov、Mike Schuster、Qi Ge、Thorsten Brants、Phillipp Koehn 和 Tony Robinson。
2022-07-13 16:05:40 1.69GB 数据集
1.用于解决 nltk.stem.WordNetLemmatizer()时报错BadZipFile(“File is not a zip file“)的解决方法; 2.需要将文件解压为omw-1.4;
2022-07-13 13:12:25 11.55MB nltk语料库
1
布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸文本、书籍以及政府文件,包含 1,014,312 个单词的它主要用于语言建模。 原始语料库包含手动注释的句子、标记边界和单词类注释,转换的语料库则包含基于布朗语料库 TEI / XML 版本重建的完整文本,并通过 OLiA 连接到用于聚合查询的本体 Word 类中。 该语料库最初由布朗大学语言学系的 W. Nelson Francis 和 HenryKučera 于 1963 – 1964 年发布,相关论文有《Computational Analysis of Present-Day American English》。
2022-07-13 11:04:46 9.09MB 数据集
尽管文本数据激增,但缺乏多应用文本语料库是文本挖掘和自然语言处理尤其是波斯语中的严重瓶颈。 该项目提供了一个新的波斯语新闻文章分析语料库,称为 Persica。 新闻分析包括新闻分类、主题发现和分类、类别分类和更多程序。 处理 NEWS 有特殊要求,首先要有一个有效可靠的语料库来对其进行实验。 请使用此参考引用我们:@inproceedings{eghbalzadeh2012persica, title={Persica: A Persian corpus for multi-purpose text Mining and Natural Language processing}, author={Eghbalzadeh, Hamid and Hosseini, Behrooz and Khadivi, Shahram and Khodabakhsh, Ali}, booktitle={Telecommunications (IST), 2012 Sixth International Symposium on}, pages={1207--1214}, year={2012}, or
2022-06-24 11:08:29 22KB 开源软件
1
小黄鸡语料库.conv
2022-06-16 11:03:39 23.33MB 数据集
文本熵 计算给定文本的熵的代码。 我使用过旁遮普语语料库(随附上传)。
2022-06-14 11:33:50 23.05MB Python
1
CASIA汉语情感语料库,共包括四个专业发音人,六种情绪,为研究情感语音所设计的语料。这些语料可以用来对比分析不同情感状态下的声学及韵律表现
2022-06-09 21:39:55 57.95MB 汉语情感语料库
1
在自然语言处理领域,构建对话系统是一项艰巨的任务,让人类可以与虚拟代理进行自然感觉的对话,这也是许多正在进行的研究的重点。一些挑战包括随着时间的推移将引用链接到相同的实体,跟踪之前的对话中发生了什么,并生成适当的响应。这种自然发生的对话语料库有助于建立和评价对话系统。
2022-05-26 09:43:48 786.42MB 数据集
1
Chinese Treebank 8.0 LDC中文句树库(LDC2013T21),已标注句子的各个词语词性、句中成分、语义信息,可用于自然语言处理的句法分析或词性标注等任务。
2022-05-25 13:43:46 23.39MB nlp 自然语言处理 语料库 句树
1
“通过构建辅助句子利用BERT进行情感分析”的论文代码和语料库
2022-05-23 17:02:19 471KB Python开发-自然语言处理
1