使用GPT2生成文本摘要
Blog上随附代码。
数据集准备
分别为CNN和Daily Mail Tokenized文章运行max_article_sizes.py。 它将创建每个CNN / DAILY MAIL文章大小的泡菜文件。
$ python max_article_sizes.py path/to/cnn_or_dailymail/tokenized/articles
运行以下命令以准备包含标记化文章和摘要的json文件
$ python prepare_data.py path/to/pickle_file/of/articles/sizes/created/using/above/command
训练
使用预先训练的权重,使用PyTorch上对数据技巧,对GPT2模型进行。
$ python train_gpt2_summarizer.py --batch_size
1