利用wikipedia语料训练word2vec代码,中英文都可,语料自行下载
2022-11-16 00:13:59 5KB word2vec
1
自然语言处理第二次作业: data文件夹中存储语料(中文语料以及英文语料由老师提供,另一份为中文停用词语料) output文件夹中存储输出的词向量文件 script文件夹中为CBOW的脚本,同时处理中文语料与英文语料 运行步骤:在脚本中确定训练中文或者是英语后,直接运行即可
2022-05-11 10:42:22 13.58MB nlp pytorch cbow 词向量
1
聊天机器人 一个可以使用自己的语言料进行训练的中文聊天机器人,目前包含seq2seq tf1.x和tf.2x版本,seqGan版本为tf1.x版本,pytorch版本,欢迎大家实践交流。 关于语料的说明 大家可以使用小黄鸡的预料,地址 seq2seq版本代码执行顺序 1,在下载好代码和语料之后,将语料文件放入数据目录下。 2,准备数据预处理器(data_utls.py)-> execute.py(执行器)-> app.py(可视化对话模块)的顺序执行就可以了。 3,超参配置在seq2seq.ini和seq2seq_sever.ini文件中配置。 seqGAN版本代码执行顺序 1,在下载好代
2022-03-08 08:30:31 28.28MB python ai chatbot pytorch
1
WikiExtractor.py 中文维基语料训练获取工具之一
1
NLP文本分类语料库(复旦)语料训练
2021-12-06 10:12:26 52.56MB NLP 文本 分类语料库 训练集
1
50万条中文闲聊对话高质量语料,最新整理,包括很多热门语句和流行词汇。适用于NLP(自然语言处理)进行对话学习训练,可用于聊天机器人研究和开发。
2021-09-27 10:19:15 29.18MB NLP 语料 聊天 机器学习
1
对话机器人训练语料、机器学习、自然语言处理用
1
包含mono、tri1、tri2、tri3a、tri4a、tri5a已训练好的mdl、fst等文件,不包含dnn训练结果
2021-07-22 22:06:56 76B kaldi aishell 语音识别 语音模型
1
Wiki中文语料2020年版,经过opencc繁简转换,jieba分词,训练出的词向量模型,维度为20。。。。。。。。。。。。。。
2021-07-13 19:58:29 259.9MB wiki中文语料 训练出的bin模型
1
中文词汇分类搜狗语料训练结果
2021-03-06 09:00:11 108KB python
1