人民日报的爬取数据集
2024-04-21 22:46:51 31.76MB 数据集
1
人民日报的1998年1月份的标注过的语料。
2022-06-01 08:47:04 2.12MB 人民日报 语料
1
人民日报语料处理工具集 | Tools for Corpus of People's Daily
2022-05-27 18:05:52 2.53MB Python开发-自然语言处理
1
安全技术-网络信息-纽约时报网络版与人民日报网络版编辑特色比较研究.pdf
2022-04-29 09:01:14 4.37MB 安全 网络 文档资料
人民日报,2019年1月1日到2020年2月27日的所有文章,SQLITE数据库,共30470篇文章,仅供学习使用,不得作商业用途。供写作爱好者或时政爱好者方便使用。数据表的格式为: CREATE TABLE content ( conID INTEGER PRIMARY KEY AUTOINCREMENT,--自动增量ID nDate date,--文章日期 cDate varchar(14),--未用(超长varchar不截断) nodeName varchar(30),--版名(超长varchar不截断) nodeNum int,--版次,即文章在第几版 nTitle varchar(1000),--引标题 cTitle varchar(1000),--主标题 cTitle2 varchar(1000),--副标题 cnodeNum varchar(32) UNIQUE ,--保存人民日报的网站文件名,类UUID,唯一 cAuthor varchar(200),--文章作者 content text --文章内容 );
2022-02-27 10:01:34 31.44MB 人民日报
1
用Java(Jsoup)实现的爬虫程序,能够获取人民日报的某一天的全部文本新闻信息,然后用JFrame显示出来。
2022-02-15 10:25:26 273KB Java 爬虫
1
2014年的人民日报数据,总共有28万行,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。
2021-12-27 19:55:45 124.07MB nlp 词性标注 NER 命名实体识别
1
1998年的人民日报语料,语料中有少许的不规范的地方,经过个人加工与修正,方便大家使用
2021-11-30 16:52:22 8.42MB 人民日报语料
1
人民日报分词语料1998年1月份,包含训练和两份语料和汇总语料,可以自行训练和验证模型使用。
2021-11-19 10:16:49 5.27MB 人民日报语料
1
nlp_ner 使用Bi-LSTM和crf来进行人名识别,数据集人民日报98年1月标注数据集,训练:验证:测试为3:1:1 数据说明 原数据文件是/data/rmrb199801.txt data_process.py对文件进行了大量的处理 结果 acc:0.99 f1:0.9
2021-11-13 10:03:59 43.54MB Python
1