PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。为了促进中文信息处理研究的发展,他们三方计划公开PFR语料库。作为公开的前期工作,从4月3日起,在他们三方的主页上免费公开PFR语料库1月份的语料,欢迎大家下载。PFR语料库的制作规范参阅《现代汉语语料库加工――词语切分与词性标注规范》。如果您在研究或论文工作中使用PFR语料库,请注明来源
2021-10-30 12:55:23 14.22MB 《人民日报》 数据集
1
分词训练语料库,仅供学习和研究使用,禁止用于商业行为
2021-10-23 16:41:21 8.42MB 分词训练语料库
1
人民日报1946年到2003年137万篇文章统计得出的11111个汉字频率,频率由高到低排序,用于了解哪些中国汉字是高频字,提供给书法爱好者从汉字使用频率高到低练字用。共1111个汉字,使用9.48亿次。 内容如下: 的一国人在了和是中大有不会民工这年主地们为个作上要我生到产行发他以来出日部业对十经社家学进动成全政新多同时第员方加义就于说分长本建开自三党用下法实力理月现展美农专表后高二合过能各利得重前事关也种公军好面者定市代报文等革机问天化区队共之战而里委平版华制联都正子着起五议总当领体还提可四两电争所命去外务使些从立南决设万团西解济栏小导题资教心反百今北级度明已内次水干组把结与量想并其场将任最向意强活道治科席改由众情斗保记基东间应群运比及无斯通术统计界世志特府思品路亚九入取放点论技系如际省增海安名目样持位广山苏指但厂认因然县据办原京拉育达期六造性尔交门七先克阶又企没少毛收更条支集物看步马书相八很举老织金管......
2021-10-17 22:18:29 33KB 汉字 频率
1
人民日报标注语料有1998年1-6月以及2014年版本,这个是2014年的标注预料版本,可以用来训练词性标注、分词模型、实体识别模型。
1
人民日报中文分词语料库
2021-10-02 18:41:05 2.56MB 人民日报 中文分词 语料库
1
人民日报语料库 人民日报语料库
2021-09-20 15:41:10 3.02MB NLP 自然语言处理 语料
1
资源为1998年人民日报1-6月份带词性标注的语料库中的1998年3月份的语料,其他月份的语料可以到我的主页下载,亦可私信我获取。
2021-08-10 15:32:53 11.35MB 人民日报 词性标注 语料库 nlp
1
人民日报历史微博内容,仅供研究使用,该版权已微博网站为准。商业使用请联系源账号。此内容仅包含人民日报发布的微博的公开内容和相关的转发、点赞和评论数量。
2021-08-03 18:56:01 26.58MB 微博数据
1
本文件包含:1.CRF++-0.58 2.人民日报语料;希望能对学习CRF的学习者们提供帮助
2021-07-27 22:34:12 2.58MB CRF++-0.58 人民日报语料
1
自然语言处理:用paddle对人民日报语料进行分词,停用词,数据清洗和熵计算 数据集提取: 公众号:YOLO的学习进阶日常 然后回复:nlp1 安装本地飞桨 本人 win10 python3.7 用的CPU 安装方式: pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple pip install –upgrade paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple 安装成功如下: import paddle.fluid paddle.fluid.
2021-07-22 23:21:23 167KB add dd ddl
1