chatbot_by_similarity
根据文本相似度实现问答的聊天机器人(弱智版)
项目介绍
这是根据工作需求写的一个简易版本的聊天机器人,主要目的是根据问题从知识库中匹配相应的答案,从而帮助使用者去更方便的查询到一些知识性内容。
模块简介
用法比较简单,给文本列表,经过训练后去匹配问题返回相似的答案。
结构及用法
模块由五个部分构成:测试数据、预处理分词、计算词向量、计算相似度和聊天机器人
文本的预处理(cut_text.py):
提供知识库的word文档数据和小黄鸡聊天记录
from chatbot import load_data
# word数据
texts = load_data(type='knowledge')
# 小黄鸡数据
texts = load_data(type='chat')
文本的预处理(cut_text.py):
用于分词、剔除停用词(这里偷懒直接把长度
1