上传者: 42118423
|
上传时间: 2021-10-30 16:19:50
|
文件大小: 929KB
|
文件类型: -
汉字频率
通过处理来自各种来源的文本数据来收集汉字使用频率的统计数据。 您可以在目录中找到以下文件:
文件
汉字总数
描述
日期
〜51.5百万
小说和非小说书籍
2015年5月
〜1030万
来自各种来源的在线新闻文章
2015年6月
〜1000万
收集的Twitter消息
2015年6月
约784.6M
日语
2015年5月
请参阅下面的详细说明。
格式
每个文件包含一个数组数组(行)。 每行包含三个字段:
(字符串)汉字本身。 第一行中的"all"是特例。
(整数)在分析的数据集中发现多少次。 对于"all"它是包括重复在内的汉字总数。
(浮点数)此字符表示的数据总量的