上传者: 42102220
|
上传时间: 2021-10-20 13:19:16
|
文件大小: 42KB
|
文件类型: -
zn
指针生成网络,中文数据集下生成摘要, 详情
改动的地方
原论文的指针生成网络,对于正文和摘要的特征抽取是采用单层(双向)的LSTM进行抽取的,我将其变为Bert的embedding的结构。模型的整体框架没有变动,但是工程上的处理进行了微调。(并非使用了Bert)
中文数据:
250万篇新闻( 原始数据9G,压缩文件3.6G;新闻内容跨度:2014-2016年)
或,密码:k265
tokenizer
新闻数据集的分词代码
new-point-generate-zh
指针生成网络在新闻数据集下的应用
运行
先是tokenizer
python main.py --original_data_dir E:\0000_python\point-genge\point-generate\zh\data --tokenized_dir ./tokenized_single
E:\0000_py