ctb8.0(Chinese Treebank 8.0)数据集 介绍:Chinese Treebank 8.0 包含大约 150 万字广播的注释和解析文本,来自中文新闻专线、政府文件、杂志文章、各种广播新闻 对话节目、网络新闻组和博客。
中国树库项目于 1998 年在宾夕法尼亚大学开始,在科罗拉多大学继续,然后转移到布兰代斯大学。该项目的目标是提供一个大型的、词性标记的和完全括号括起来的中文语料库。第一个交付,中国树库 1.0,包含来自新华社新闻专线的 100,000 个句法注释词。它后来被更正并于 2001 年作为中国树库 2.0 (LDC2001T11)发布,由大约 100,000 字组成。2004年, LDC发布了中文树库4.0(LDC2004T05),更新版本约40万字。一年后,LDC发布了50万字的中文树库5.0(LDC2005T01)。2007年发布的中文树库6.0(LDC2007T36),包含78万字。Chinese Treebank 7.0 (LDC2010T08)于 2010 年发布,增加了新的带注释的新闻专线数据、广播材料和网络文本,总字数约为 100 万字。
2022-05-10 20:06:17
3.98MB
学习
文档资料