GPT2-新闻标题
带有超详细注释的GPT2新闻标题生成项目
更新日期01.02.2021
从网上收集数据,将清华新闻数据,搜狗新闻数据等新闻数据集,以及开源的一些摘要数据进行整理清洗,制作一个较完善的中文摘要数据集。
数据集清洗时,仅进行了简单地规则清洗。例如:清洗htlm标记,去除多余的空字符,去除图片标记等。
处理后数据集详细信息,见
数据
原始数据/项目地址
处理后文件下载地址
清华新闻数据
提取码:vhol
搜狗新闻数据
提取码:ode6
nlpcc2017摘要数据
提取码:e0zq
csl摘要数据
提取码:0qot
教育培训行业摘要数据
提取码:kjz3
lcsts摘要数据
1