谭松波老师收集整理的酒店评论语料,一共有6000条评价预料,其中包含负面的3000条保存在neg文件夹中、正面的3000条保存在pos文件夹中。语料数据来源网络,如有侵权,请联系删除。再次感谢谭松波老师花费时间和心血收集整理并分类酒店评论语料
2021-11-16 21:47:50 1.52MB 数据集
1
word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。 word2vec计算的是余弦值,距离范围为0-1之间,值越大代表两个词关联度越高。 词向量:用Distributed Representation表示词,通常也被称为“Word Representation”或“Word Embedding
2021-11-11 17:13:13 184KB c ec gensim
1
使两个机器人的相互对话生成语料,文本大小为1.03m,用于闲聊机器人的训练数据,使用 # 作为两个多轮对话之间的分隔符
2021-11-04 16:58:16 351KB 中文语料 闲聊语料 多轮对话
1
TIMIT Acoustic Phonetic Continuous Speech Corpus 是一个英语语音识别数据,包括 630人8个不同地区的美国方言录制的音频信息。
2021-11-04 16:23:12 416.07MB 语音识别 音频语料
1
情绪类型包括以下几个部分:angry、fear、happy、neutral、sad、surprise。总共有4个人,包括男女
1
MultiWOZ_训练语料 1.1 2.0 2.1 2.2
2021-10-31 16:44:48 52.22MB 训练语料语料
1
英文停用词词典(进行文本分词时使用),亲测可用,较全
2021-10-28 22:02:13 2KB 停用词 分词 英文语料
对搜狗实验室的2012搜狐新闻语料进行切分、格式转换(已转为UTF8),从中抽取了11个新闻类别并分文件夹存储,每个txt文件包含600篇新闻。数据大概共54M,可以用于中文分类。
2021-10-27 19:57:18 53.84MB 文本分类 新闻语料 搜狐新闻
1
一些NLP数据/语料下载-附件资源
2021-10-25 21:02:54 106B
1
这个软件可以对设定的语料库分词,提词,频度分析。便于语料的处理
2021-10-16 20:18:21 12.97MB 语料库分析系统
1