谭松波老师的评论语料资源 gb2312,除了原始编码格式,还有UTF-8编码格式的,在这里一起分享给大家, 还将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即一篇评论,更加的方便大家使用
2021-02-26 17:03:51 9.88MB 谭松波 酒店评论语料
1
中文英文的平行语料,来源于niutrans语料,总共20万句(中文10万英文10万),该语料可用于机器翻译等的训练。
2021-02-17 15:29:33 7.84MB 机器翻译
1
研究中国古文翻译的语料,是pdf格式的,来自gwgz这个分支
2021-02-05 09:14:44 316.72MB gwgz
1
基于因果关系知识库的因果事件大规模语料图谱项目,形成因果事件图谱。
2021-01-30 14:14:23 9.62MB 图谱
1
最权威的中文文本分词语料 可用于文本分词 分词语句达20万句
2021-01-29 20:46:29 12.22MB 1998 人民日报 分词 语料
1
(完整版)来源:复旦大学计算机信息与技术系国际数据库中心自然语言处理小组;由复旦大学李荣陆提供;test_corpus.rar为测试语料,train_corpus.rar为训练语料
1
深度学习中word2vector测试语料text8 word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。 word2vec计算的是余弦值,距离范围为0-1之间,值越大代表两个词关联度越高。 词向量:用Distributed Representation表示词,通常也被称为“Word Representation”或“Word Embedding(嵌入)”。
2020-12-16 11:37:37 26.1MB word2vec text8 语料
1
该数据是完整的BIO标注语料,可用于深度学习机器学习模型训练,分为训练集、测试集以及验证集。
2020-10-25 18:37:48 1.82MB BIO标注 深度学习 训练预料
1
文本分训练和测试集,每个类别2000条新闻,简单做分类,测试效果 是足够了
2020-02-04 03:16:52 8.3MB 文本分类语料
1
数据来源于中文维基百科,利用gensim进行数据抽取,再经过繁体字转换成简体字,得到纯净的文本语料,可用于词向量训练。
2020-01-14 03:01:42 146.03MB 维基语料 词向量语料
1