Pretrained-Unilm-Chinese
中文版unilm预训练语言模型
Table of Contents
Background
最近由于公司业务的需要,做了一些基于预训练seq2seq模型的文本生成式任务,研究了、、之后,发现unilm这风格的seq2seq非常优雅。但是作者只开源了英文版的预训练模型,在git上也没找到合适的中文版unilm的预训练模型以及预训练代码,于是自己写了一个tensorflow版本。本项中预训练基于tensorflow-gpu==1.14.0,后续的微调任务基于。
Pretrain
Training Data
简体中文维基百科数据,处理成一行一行句子对的形式。
Input Mask And Attention Mask
在一条数据中随机mask15%的token,被mask的token中80%用[MASK]表示,10%从vocab中随机选择一个tok