学习资料ctb8.0(Chinese Treebank 8.0)数据集

上传者: 41194129 | 上传时间: 2022-05-10 20:06:17 | 文件大小: 3.98MB | 文件类型: ZIP
ctb8.0(Chinese Treebank 8.0)数据集 介绍:Chinese Treebank 8.0 包含大约 150 万字广播的注释和解析文本,来自中文新闻专线、政府文件、杂志文章、各种广播新闻 对话节目、网络新闻组和博客。 中国树库项目于 1998 年在宾夕法尼亚大学开始,在科罗拉多大学继续,然后转移到布兰代斯大学。该项目的目标是提供一个大型的、词性标记的和完全括号括起来的中文语料库。第一个交付,中国树库 1.0,包含来自新华社新闻专线的 100,000 个句法注释词。它后来被更正并于 2001 年作为中国树库 2.0 (LDC2001T11)发布,由大约 100,000 字组成。2004年, LDC发布了中文树库4.0(LDC2004T05),更新版本约40万字。一年后,LDC发布了50万字的中文树库5.0(LDC2005T01)。2007年发布的中文树库6.0(LDC2007T36),包含78万字。Chinese Treebank 7.0 (LDC2010T08)于 2010 年发布,增加了新的带注释的新闻专线数据、广播材料和网络文本,总字数约为 100 万字。

文件下载

资源详情

[{"title":"( 6 个子文件 3.98MB ) 学习资料ctb8.0(Chinese Treebank 8.0)数据集","children":[{"title":"ctb8.0-dep","children":[{"title":"hankcs:OpenCorpus- A collection of freely available corpora..webloc <span style='color:#111;'> 259B </span>","children":null,"spread":false},{"title":"dev.conll <span style='color:#111;'> 606.42KB </span>","children":null,"spread":false},{"title":"test.conll <span style='color:#111;'> 1.46MB </span>","children":null,"spread":false},{"title":"README.md <span style='color:#111;'> 360B </span>","children":null,"spread":false},{"title":"train.conll <span style='color:#111;'> 12.70MB </span>","children":null,"spread":false}],"spread":true},{"title":"wiki-cn-cluster.txt <span style='color:#111;'> 2.29MB </span>","children":null,"spread":false}],"spread":true}]

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明