人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。
2019-12-21 22:05:48 10.18MB 中文语料 标注语料 自然语言处理
1
中文文本分类语料(复旦)-训练集和测试集 这个链接是训练集,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大,下载时请耐心等待。
2019-12-21 22:04:21 101.81MB 文本分类 数据集 复旦 中文
1
中文酒店情感分析语料,标注了打分1-5分,可用于多分类,train12000,条,test4000条,非utf-8编码
2019-12-21 22:04:01 6.72MB 中文情感分析
1
分了26类的体育语料,包括棒球 帆船 击剑 举重 篮球 垒球 马术 排球 皮划艇 乒乓球 曲棍球 拳击 柔道 赛艇 射击 射箭 手球 摔跤 跆拳道 体操 田径 网球 游泳 羽毛球 自行车 足球等领域,在每个文件夹中的all.txt文件已经分词处理,可用于自然语言处理
2019-12-21 21:57:30 8.35MB 体育 分词 语料
1
1、 该软件只支持ANSI编码文本,不支持Unicode编码文本。 2、 汉语文本可不进行分词处理。 3、 中英文文本文件要求分别以*.ZH.txt和*.EN.txt方式命名。 4、 数据文件必须严格行对齐,如包含空行也必须达到文本对应,即平行文件的对应行都是空的。软件不能智能自动对齐语料。 5、 软件支持正则表达式检索。 6、 软件默认支持英文词形还原检索(lemmatized search),如,检索go,可得到含有go、goes、went、going、gone等的平行句对。去除lemmatized前的复选框,则可以检索实际输入的检索项(比如搜goes,只能得到含goes的平行句对)。 7、 软件还支持对应语言文本中包含或不含(exclude)某词项的检索。如检索education,以及结果中包含(或不含)“教育”的句对。 8、 结果可存为tab符分隔的文本文件,便于后续分析。
2019-12-21 21:57:29 4.6MB 双语平行语料
1
可用于情绪语音识别,中文语料
2019-12-21 21:53:20 45.24MB casia 汉语 情感语料
1
图灵机器人语料库模板
2019-12-21 21:46:01 22KB 机器人语料
1
共8400多对中英语句,已预处理,中文用jieba分了词,标点符号没问题,保存于en-zh.csv,分隔符是制表符\t(不是默认逗号)。 句粒度,但有不少长句,裁剪后5w对也够用。 原始数据集也在包中,其中en-zh_News.tmx有一部分句子有问题,(en-zh.csv丢弃了有问题的句子),如果必要建议不要直接使用该文件。 另外附赠我对语料的预处理文件(propressor.py),以及数据集(pytorch的Dataset)等相关的实现(LangData.py)。 如果又可以改善的地方,欢迎留言
2019-12-21 21:44:28 35.14MB 中英平行语料库 语料
1
本资源为自己人工标记的微博语料,分为消极pos.txt,积极neg.txt 各60000条,适用于机器学习情感分析,训练数据原数据
2019-12-21 21:38:28 8.38MB 情感分析 微博语料 机器学习 标记语料
1
4万条微博数据,详细分为21类
2019-12-21 21:36:01 10.16MB 微博 分类 语料
1