复旦大学分词语料库
2022-11-02 15:12:21 50.38MB 分词 语料
1
双语语料库及其对齐技术(1) 语料库 语料库(Corpora)是按照一定的原则组织在一起的真实的自 然语言数据(包括书面语和口语)的集合,主要用于研究自 然语言的规律,特别是统计语言学模型的训练以及相关系 统的评价和评测 语料库语言学 语料库语言学是以语料库为基本知识源来研究自然语言规 律的学科,主要研究内容包括语料库加工的理论、方法和 工具以及基于语料库的知识获取。 单语语料库(Monolingual Corpus)和多语语 料库(Multilingual Corpora)
2022-10-18 20:41:18 429KB 机器翻译原理
1
10万中文人名语料库 10万中文人名语料库 10万中文人名语料库
2022-09-21 20:09:37 295KB 10万 中文人名 语料库
1
可以训练聊天机器人,所有文件以" +++$+++ "分隔符。数据来源:http://www.cs.cornell.edu/~cristian/memorability.html (大家可以去哪儿下载。)
2022-09-11 12:05:22 32.33MB 深度学习
1
Bo Pang and Lillian Lee 在 《Convolutional Neural Networks for Sentence Classification》用的语料库 原始数据来自于影评。包含了5000多条正面评价,和5000多条负面评价。 已经整理成UTF8格式,便于使用
2022-07-17 11:40:19 456KB 语料库 影评 英语
1
1 Billion Word Language Model Benchmark R13 Output 是一套新的基准语料库,被用于衡量和统计语言建模进展,凭借近 10 亿字的培训数据,该基准测试可以快速评估新的语言建模技术,并将其与其他新技术相结合。 该数据集由康奈尔大学于 2013 年发布,主要发布人有 Ciprian Chelba、Tomas Mikolov、Mike Schuster、Qi Ge、Thorsten Brants、Phillipp Koehn 和 Tony Robinson。
2022-07-13 16:05:40 1.69GB 数据集
1.用于解决 nltk.stem.WordNetLemmatizer()时报错BadZipFile(“File is not a zip file“)的解决方法; 2.需要将文件解压为omw-1.4;
2022-07-13 13:12:25 11.55MB nltk语料库
1
布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸文本、书籍以及政府文件,包含 1,014,312 个单词的它主要用于语言建模。 原始语料库包含手动注释的句子、标记边界和单词类注释,转换的语料库则包含基于布朗语料库 TEI / XML 版本重建的完整文本,并通过 OLiA 连接到用于聚合查询的本体 Word 类中。 该语料库最初由布朗大学语言学系的 W. Nelson Francis 和 HenryKučera 于 1963 – 1964 年发布,相关论文有《Computational Analysis of Present-Day American English》。
2022-07-13 11:04:46 9.09MB 数据集
尽管文本数据激增,但缺乏多应用文本语料库是文本挖掘和自然语言处理尤其是波斯语中的严重瓶颈。 该项目提供了一个新的波斯语新闻文章分析语料库,称为 Persica。 新闻分析包括新闻分类、主题发现和分类、类别分类和更多程序。 处理 NEWS 有特殊要求,首先要有一个有效可靠的语料库来对其进行实验。 请使用此参考引用我们:@inproceedings{eghbalzadeh2012persica, title={Persica: A Persian corpus for multi-purpose text Mining and Natural Language processing}, author={Eghbalzadeh, Hamid and Hosseini, Behrooz and Khadivi, Shahram and Khodabakhsh, Ali}, booktitle={Telecommunications (IST), 2012 Sixth International Symposium on}, pages={1207--1214}, year={2012}, or
2022-06-24 11:08:29 22KB 开源软件
1
小黄鸡语料库.conv
2022-06-16 11:03:39 23.33MB 数据集