# 说明
该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作
该库搜集了包含
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
共8个公开闲聊常用语料和短信,白鹭时代问答等语料。
并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。
**使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。*
# 环境
python3
# 处理过程
将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。
# 使用方法
将解压后的raw_chat_corpus文件夹放到当前目录下
目录结构为
```
raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...
```
执行命令即可
```bash
python main.py
```
或者
```bash
python3 main.py
```
# 生成结果
每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。
生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer
```
query \t answer
```
# 结果的使用
这个就根据每个人不同的情况自主使用即可
个人对于聊天机器人方向实践也不是很多,以下一篇之前写的知乎专栏供参考
**《从产品完整性的角度浅谈chatbot》**
文章粗略讲解了如下一些方面,介绍了聊天机器人在实际产品化过程中可能遇到的问题和解决办法。
1. chatbot自身人格的设置
1. 产品上线需要考虑的敏感词处理
1. 文本检索模型的使用
1. 文本生成模型的使用
1. 回答打分机制
1. 万能回答的使用策略
1. 多媒体消息的处理
1. 产品模型部署的问题
# 版权说明
本项目为非商业项目,为纯搜集和汇总资料,如有侵权,请在issue下留言。
1