短消息服务(SMS)消息是一个人从他们的手机发送到另一个人的短消息。它们代表了一种个人交流手段,是当今数字时代重要的交流产物。此数据集包含SMS消息,这些消息是从知道他们正在参加研究项目的用户收集的,并且他们的消息将被公开共享。该数据集包含两种语言的两种SMS消息:新加坡英语和普通话。 smsCorpus_zh_2015.03.09.json smsCorpus_en_2015.03.09_all.json
2021-12-01 15:12:49 3.56MB 数据集
1
PDF到TXT(带有OCR) 给定一个或多个可能包含文本格式图像的PDF,请使用OCR(光学字符识别)将内容转换为TXT文件(采用UTF-8编码)。 基本原理 对现有PDF到TXT解决方案的调查发现,没有满足以下所有条件的现有解决方案: 是一种离线工具(用于确保安全的人员信息) 提供从PDF到TXT的转换(大多数现有的OCR集成均假定图像作为输入) 支持多个文件的批处理 假设条件 (当前)这是一个用Python编写的命令行工具。 假定基本熟悉在终端中执行命令以及目录结构。 假定您已安装Python版本3.x以及 。 该脚本依赖于由Google管理的行业标准OCR库,称为 。 由于它是用C ++编写的,因此要使Python能够使用它,就需要单独安装(下面的说明)。 同样,将需要在Windows和Mac系统上安装PDF到图像库 。 设置 视窗 在您的桌面上新建一个名为ocr文件夹(
2021-11-05 11:31:09 44KB pdf converter ocr corpus
1
汉字频率 通过处理来自各种来源的文本数据来收集汉字使用频率的统计数据。 您可以在目录中找到以下文件: 文件 汉字总数 描述 日期 〜51.5百万 小说和非小说书籍 2015年5月 〜1030万 来自各种来源的在线新闻文章 2015年6月 〜1000万 收集的Twitter消息 2015年6月 约784.6M 日语 2015年5月 请参阅下面的详细说明。 格式 每个文件包含一个数组数组(行)。 每行包含三个字段: (字符串)汉字本身。 第一行中的"all"是特例。 (整数)在分析的数据集中发现多少次。 对于"all"它是包括重复在内的汉字总数。 (浮点数)此字符表示的数据总量的
2021-10-30 16:19:50 929KB data japanese corpus data-visualization
1
课业1-大型文本语料库的搜索引擎 UoE-IADS CW1
2021-10-24 01:03:23 4.37MB Python
1
中文问句分类数据集,可用于训练中文问句分类和句向量抽取等任务。
1
中文命名实体识别数据集
2021-10-18 17:12:25 2.33MB 命名实体识别
1
PPASR中文语音识别(最终级)模型(free_st_chinese_mandarin_corpus数据集训练的),源码地址:https://github.com/yeyupiaoling/PPASR
2021-10-14 12:08:23 574.47MB paddlepaddle 语音识别 asr DeepSpeech2
1
事件抽取 事件关系抽取 数据集 包含部分ACE 2005 Multilingual Training Corpus 和 Text Analysis Conference Knowledge Base Population (TAC KBP)的语料集
2021-09-29 16:52:25 3.49MB ACE2005 TAC KBP 事件抽取语料 TEACED
1
布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸文本、书籍以及政府文件,包含 1,014,312 个单词的它主要用于语言建模。 cats.csv brown-meta.json brown.csv Brown Corpus 布朗语料库_datasets.txt Brown Corpus 布朗语料库_brown_datasets.zip
2021-09-28 19:16:04 9.08MB 数据集
1
该数据集为教育培训行业抽象式自动摘要中文语料库。 chinese_abstractive_corpus_datasets.txt
2021-09-14 10:25:49 239B 数据集
1