GPT2,用于中文聊天
更新2020.01.09
添加50w闲聊语料与预训练模型的GoogleDrive的下载地址
更新2019.12.17
基于微软的论文添加了MMI模型(最大互信息评分功能),对对话模型生成了多个响应进行筛选
项目描述
本项目使用GPT2模型对中文闲聊语料进行训练,使用HuggingFace的实现GPT2模型的编写与训练。
在闲暇时间用模型训练了几个长文本的生成模型,并且精读了一遍作者的源码,除了匪浅,加深了自己对GPT2生成模型的一些理解,于是将GPT2模型用作闲聊对话的生成,非常感谢作者的分享。
本项目中沿用了原项目中的部分结构和一些命名方式,同时也对很多代码细节做了了自己的实现。
解码器的逻辑使用了温度,Top-k采样和核采样等,可参考论文
根据微软的DialoGPT的思想,在项目中添加了互信息。训练了两个模型:Dialogue Model与MMI Model(最大互信息评分功能)。首先使用Dialogue Model生成多个响应,然后使用MMI Model从先前response中,拾取损耗最小的作为最终的response
代码中称为了很多详细的中文注释,方便
1