搜索【corpus-data】的结果

汉字频率通过处理来自各种来源的文本数据来收集汉字使用频率的统计数据。您可以在目录中找到以下文件：文件汉字总数描述日期〜51.5百万小说和非小说书籍 2015年5月〜1030万来自各种来源的在线新闻文章 2015年6月〜1000万收集的Twitter消息 2015年6月约784.6M 日语 2015年5月请参阅下面的详细说明。格式每个文件包含一个数组数组（行）。每行包含三个字段：（字符串）汉字本身。第一行中的"all"是特例。（整数）在分析的数据集中发现多少次。对于"all"它是包括重复在内的汉字总数。（浮点数）此字符表示的数据总量的

2021-10-30 16:19:50 929KB data japanese corpus data-visualization

1

ua-gec:通用电气公司-源码

UA-GEC：乌克兰语的语法错误纠正和流畅语料库此存储库包含 UA-GEC 数据和随附的 Python 库。数据所有语料库数据和元数据都保存在./data 。它有两个子文件夹用于每个拆分（训练和测试）都有用于不同数据表示的更多子文件夹： ./data/{train,test}/annotated以带存储文档 ./data/{train,test}/source和./data/{train,test}/target存储文档的原始版本和更正版本。这些目录中的文本文件是没有注释标记的纯文本。这些文件是根据带注释的数据生成的，在某种程度上是多余的。我们保留它们是因为这种格式在某些用例中很方便。元数据 ./data/metadata.csv存储每个文档的元数据。这是一个包含以下字段的 CSV 文件： id (str)：文档标识符。 author_id (str)：文档作者标

2021-08-05 16:04:25 9.58MB natural-language-processing corpus dataset corpus-data

1

MSR Paraphrase Corpus data.zip

MSR数据集，是微软公开的相似度计算数据集，其中训练集有4076个句子，其中包含2753个相似度为1，即为正例句子；测试集有1725个句子，其中包含1147个正例句子。

2021-04-26 17:12:27 485KB MSR数据集 文本相似度计算

1

SIGIL - R for Corpus Data.pdf

2021-03-28 09:07:49 124KB R语言 语料库

1

个人信息

热门下载

最新下载

其他资源