使用GPT2生成文本摘要 Blog上随附代码。 数据集准备 分别为CNN和Daily Mail Tokenized文章运行max_article_sizes.py。 它将创建每个CNN / DAILY MAIL文章大小的泡菜文件。 $ python max_article_sizes.py path/to/cnn_or_dailymail/tokenized/articles 运行以下命令以准备包含标记化文章和摘要的json文件 $ python prepare_data.py path/to/pickle_file/of/articles/sizes/created/using/above/command 训练 使用预先训练的权重,使用PyTorch上对数据技巧,对GPT2模型进行。 $ python train_gpt2_summarizer.py --batch_size
2021-09-02 15:29:32 13.38MB JupyterNotebook
1
基于深度学习的自动文本摘要 Deep Learning in Automatic Text Summarization
综述:文本摘要
2021-08-04 19:05:47 242KB 文本摘要 综述
由哈工大某实验室整理得到的文本摘要数据集
2021-07-05 09:01:38 416.3MB 文本摘要 数据集 自然语言处理
1
基于Pytorch的中文文本摘要生成 开这个仓库的主要目的是记录一下自己实验过程和数据。 参考文本摘要领域大佬写的两篇论文: and ,然后参考另一位大佬修改的代码. 另外,在这里还是要感谢一下。这里的所有内容基本上没做什么修改(python读取文件的时候出现编码问题,我的猜想是大佬用的mac系统,类linux,所以对编码不敏感,我用windows的话就报错了。),最多修改了一下超参数,刚开始在自己windows笔记本上跑的话,确实有点吃力,设置的batch_size=10,好像后来还直接报cuda错误,我的猜想就是设置过大了,显存承受不了。说多了。直接看训练和测试效果吧。 实验结果 指标 验证集 测试集 ROUGE-1 34.06 31.87 ROUGE-2 16.46 15.47 ROUGE-L 33.83 30.93 0. 数据预处理 下载(提取码:g8c6 ),下载完之后放在根目
2021-06-27 09:50:04 8.84MB Python
1
建立日期:2019年1月30日 NLP-Flask网站 静态文件夹包含所有CSS和图像模板文件夹包含所有HTML页面api.py文件包含到HTML页面和python脚本的所有路由注意:如果您对FLASK和webapp不太了解,请访问: : 执行 运行api.py 运行代码后,打开它给您的URL 多田!! 网络应用程序将打开! 仍然对如何运行感到困惑? 好吧,然后打开您的终端, cd $python api.py 它会给打开一个链接单击,该Web应用程序将在您的Web浏览器中打开。 #为NLP创建Flask网站
2021-05-30 11:07:42 12.36MB python nlp flask python3
1
中文自动文摘,基于jieba分词,全Java代码。给定文本输出自定义长度的文摘。
2021-05-24 21:07:39 4.56MB Java 中文文本 摘要生成
1
文本摘要数据集 CNN与Daily News 未经过处理的原始数据集。
1
文件有训练测试以及验证,格式为.bin,FINISHED FIES
1
ROUGE-1.5.5
2021-04-08 10:17:46 2.91MB 自动文本摘要
1