中文聊天对话语料chinese chatbotcorpus

上传者: j_thame_myhome | 上传时间: 2021-04-23 16:21:32 | 文件大小: 72KB | 文件类型: ZIP
# 说明
该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作

该库搜集了包含
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
共8个公开闲聊常用语料和短信,白鹭时代问答等语料。
并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。
**使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。*


# 环境
python3
# 处理过程
将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。
# 使用方法
将解压后的raw_chat_corpus文件夹放到当前目录下
目录结构为
```
raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...
```
执行命令即可
```bash
python main.py
```
或者
```bash
python3 main.py
```
# 生成结果
每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。

生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer
```
query \t answer
```
# 结果的使用
这个就根据每个人不同的情况自主使用即可

个人对于聊天机器人方向实践也不是很多,以下一篇之前写的知乎专栏供参考
**《从产品完整性的角度浅谈chatbot》**
文章粗略讲解了如下一些方面,介绍了聊天机器人在实际产品化过程中可能遇到的问题和解决办法。

1. chatbot自身人格的设置
1. 产品上线需要考虑的敏感词处理
1. 文本检索模型的使用
1. 文本生成模型的使用
1. 回答打分机制
1. 万能回答的使用策略
1. 多媒体消息的处理
1. 产品模型部署的问题

# 版权说明
本项目为非商业项目,为纯搜集和汇总资料,如有侵权,请在issue下留言。

文件下载

资源详情

[{"title":"( 19 个子文件 72KB ) 中文聊天对话语料chinese chatbotcorpus","children":[{"title":"chinese_chatbot_corpus-master","children":[{"title":"util.py <span style='color:#111;'> 1.32KB </span>","children":null,"spread":false},{"title":"config.py <span style='color:#111;'> 1.07KB </span>","children":null,"spread":false},{"title":"main.py <span style='color:#111;'> 975B </span>","children":null,"spread":false},{"title":"language","children":[{"title":"__init__.py <span style='color:#111;'> 0B </span>","children":null,"spread":false},{"title":"zh_wiki.py <span style='color:#111;'> 172.18KB </span>","children":null,"spread":false},{"title":"langconv.py <span style='color:#111;'> 8.06KB </span>","children":null,"spread":false}],"spread":true},{"title":"LICENSE <span style='color:#111;'> 11.09KB </span>","children":null,"spread":false},{"title":".gitignore <span style='color:#111;'> 1.19KB </span>","children":null,"spread":false},{"title":"readme.md <span style='color:#111;'> 4.74KB </span>","children":null,"spread":false},{"title":"process_pipelines","children":[{"title":"sms.py <span style='color:#111;'> 28B </span>","children":null,"spread":false},{"title":"douban.py <span style='color:#111;'> 2.07KB </span>","children":null,"spread":false},{"title":"ptt.py <span style='color:#111;'> 993B </span>","children":null,"spread":false},{"title":"tieba.py <span style='color:#111;'> 871B </span>","children":null,"spread":false},{"title":"chatterbot.py <span style='color:#111;'> 1.31KB </span>","children":null,"spread":false},{"title":"__init__.py <span style='color:#111;'> 0B </span>","children":null,"spread":false},{"title":"xiaohuangji.py <span style='color:#111;'> 1.48KB </span>","children":null,"spread":false},{"title":"qingyun.py <span style='color:#111;'> 995B </span>","children":null,"spread":false},{"title":"subtitle.py <span style='color:#111;'> 1.52KB </span>","children":null,"spread":false},{"title":"weibo.py <span style='color:#111;'> 1.26KB </span>","children":null,"spread":false}],"spread":true}],"spread":true}],"spread":true}]

评论信息

  • fan15945028042 :
    不是语料是代码
    2021-09-07

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明