enwiki-latest-pages-articles1.xml-p10p30302.bz2,维基百科用来训练英文word2vec词向量的语料
2021-06-02 15:51:58 166.28MB word2vec enwiki
1
本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M,包含1116903条数据,数据用空格隔开,可以用来训练分词模型。
2019-12-21 20:45:48 108.12MB NLP 语料 中文分词语料 中文语料
1
保险领域的问答系统训练语料,可以用来训练chatbot,希望有帮助
2019-12-21 20:35:50 84.16MB 问答系统
1
包含背景知识和问答的问答系统训练的中文语料,数据规范,问答包含正确和错误标签。
2019-12-21 18:52:52 2.13MB 数据 问答系统 知识图谱
1
JGibbLDA是LDA的Java实现库。
2015-12-03 00:00:00 838KB LDA gibbs JGibbLDA
1
用与crf分词,标注训练语料。 nlpcc2015任务一的数据
2015-09-16 00:00:00 10.17MB 分词标注语料
1