医学问答高质量文本收集,可以用作文本生成训练,医学问答场景命名实体识别,
2021-11-01 18:15:00 87.8MB 命名实体识别 高质量文本
1
使用GPT2生成文本摘要 Blog上随附代码。 数据集准备 分别为CNN和Daily Mail Tokenized文章运行max_article_sizes.py。 它将创建每个CNN / DAILY MAIL文章大小的泡菜文件。 $ python max_article_sizes.py path/to/cnn_or_dailymail/tokenized/articles 运行以下命令以准备包含标记化文章和摘要的json文件 $ python prepare_data.py path/to/pickle_file/of/articles/sizes/created/using/above/command 训练 使用预先训练的权重,使用PyTorch上对数据技巧,对GPT2模型进行。 $ python train_gpt2_summarizer.py --batch_size
2021-09-02 15:29:32 13.38MB JupyterNotebook
1