自己提取的,纯度比较高,欢迎大家下载使用
2022-01-31 02:55:23 2.11MB 语料库,自然语言处理
1
人民日报标注语料有1998年1-6月以及2014年版本,这个是2014年的标注预料版本,可以用来训练词性标注、分词模型、实体识别模型。
1
我自己写的新闻解析器从网页中提取的,支持多页新闻,效果不错。
2021-09-10 07:00:45 10.9MB 语料库 自然语言处理
1
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。 语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。 应用案例:中文文本分类,主题跟踪与检测等。
2021-08-04 18:11:29 158KB 语料库 自然语言处理 分词
免费的语料库检索工具,适用于语料库语言学、翻译学、外语教学等领域的研究者 可进行自然语言处理、分词、词频统计、文本可读性分析等
2021-04-29 22:05:35 12.62MB antconc 语料库 自然语言处理