汉字频率 通过处理来自各种来源的文本数据来收集汉字使用频率的统计数据。 您可以在目录中找到以下文件: 文件 汉字总数 描述 日期 〜51.5百万 小说和非小说书籍 2015年5月 〜1030万 来自各种来源的在线新闻文章 2015年6月 〜1000万 收集的Twitter消息 2015年6月 约784.6M 日语 2015年5月 请参阅下面的详细说明。 格式 每个文件包含一个数组数组(行)。 每行包含三个字段: (字符串)汉字本身。 第一行中的"all"是特例。 (整数)在分析的数据集中发现多少次。 对于"all"它是包括重复在内的汉字总数。 (浮点数)此字符表示的数据总量的
2021-10-30 16:19:50 929KB data japanese corpus data-visualization
1
UA-GEC:乌克兰语的语法错误纠正和流畅语料库 此存储库包含 UA-GEC 数据和随附的 Python 库。 数据 所有语料库数据和元数据都保存在./data 。 它有两个子文件夹用于 每个拆分(训练和测试)都有用于不同数据表示的更多子文件夹: ./data/{train,test}/annotated以带存储文档 ./data/{train,test}/source和./data/{train,test}/target存储文档的原始版本和更正版本。 这些目录中的文本文件是没有注释标记的纯文本。 这些文件是根据带注释的数据生成的,在某种程度上是多余的。 我们保留它们是因为这种格式在某些用例中很方便。 元数据 ./data/metadata.csv存储每个文档的元数据。 这是一个包含以下字段的 CSV 文件: id (str):文档标识符。 author_id (str):文档作者标
1
MSR数据集,是微软公开的相似度计算数据集,其中训练集有4076个句子,其中包含2753个相似度为1,即为正例句子;测试集有1725个句子,其中包含1147个正例句子。
2021-04-26 17:12:27 485KB MSR数据集 文本相似度计算
1
SIGIL - R for Corpus Data.pdf
2021-03-28 09:07:49 124KB R语言 语料库
1