只为小站
首页
域名查询
文件下载
登录
The National University of Singapore SMS
Corpus
新加坡国立大学短信语料库-数据集
短消息服务(SMS)消息是一个人从他们的手机发送到另一个人的短消息。它们代表了一种个人交流手段,是当今数字时代重要的交流产物。此数据集包含SMS消息,这些消息是从知道他们正在参加研究项目的用户收集的,并且他们的消息将被公开共享。该数据集包含两种语言的两种SMS消息:新加坡英语和普通话。 sms
Corpus
_zh_2015.03.09.json sms
Corpus
_en_2015.03.09_all.json
2021-12-01 15:12:49
3.56MB
数据集
1
ocr2text:通过OCR将PDF通过OCR转换为UTF-8编码的TXT文件-源码
PDF到TXT(带有OCR) 给定一个或多个可能包含文本格式图像的PDF,请使用OCR(光学字符识别)将内容转换为TXT文件(采用UTF-8编码)。 基本原理 对现有PDF到TXT解决方案的调查发现,没有满足以下所有条件的现有解决方案: 是一种离线工具(用于确保安全的人员信息) 提供从PDF到TXT的转换(大多数现有的OCR集成均假定图像作为输入) 支持多个文件的批处理 假设条件 (当前)这是一个用Python编写的命令行工具。 假定基本熟悉在终端中执行命令以及目录结构。 假定您已安装Python版本3.x以及 。 该脚本依赖于由Google管理的行业标准OCR库,称为 。 由于它是用C ++编写的,因此要使Python能够使用它,就需要单独安装(下面的说明)。 同样,将需要在Windows和Mac系统上安装PDF到图像库 。 设置 视窗 在您的桌面上新建一个名为ocr文件夹(
2021-11-05 11:31:09
44KB
pdf
converter
ocr
corpus
1
汉字频率:从各种来源收集的汉字使用频率数据-源码
汉字频率 通过处理来自各种来源的文本数据来收集汉字使用频率的统计数据。 您可以在目录中找到以下文件: 文件 汉字总数 描述 日期 〜51.5百万 小说和非小说书籍 2015年5月 〜1030万 来自各种来源的在线新闻文章 2015年6月 〜1000万 收集的Twitter消息 2015年6月 约784.6M 日语 2015年5月 请参阅下面的详细说明。 格式 每个文件包含一个数组数组(行)。 每行包含三个字段: (字符串)汉字本身。 第一行中的"all"是特例。 (整数)在分析的数据集中发现多少次。 对于"all"它是包括重复在内的汉字总数。 (浮点数)此字符表示的数据总量的
2021-10-30 16:19:50
929KB
data
japanese
corpus
data-visualization
1
Coursework-1-A-search-engine-for-a-large-text-
corpus
:UoE-IADS CW1,-源码
课业1-大型文本语料库的搜索引擎 UoE-IADS CW1
2021-10-24 01:03:23
4.37MB
Python
1
chinese_sentence_classification_
corpus
.7z
中文问句分类数据集,可用于训练中文问句分类和句向量抽取等任务。
2021-10-18 21:21:22
884KB
中文问句数据集
问句分类
中文句向量
1
china-people-daily-ner-
corpus
.tar.gz
中文命名实体识别数据集
2021-10-18 17:12:25
2.33MB
命名实体识别
1
PPASR中文语音识别(最终级)模型(free_st_chinese_mandarin_
corpus
)
PPASR中文语音识别(最终级)模型(free_st_chinese_mandarin_
corpus
数据集训练的),源码地址:https://github.com/yeyupiaoling/PPASR
2021-10-14 12:08:23
574.47MB
paddlepaddle
语音识别
asr
DeepSpeech2
1
corpus
.rar
事件抽取 事件关系抽取 数据集 包含部分ACE 2005 Multilingual Training
Corpus
和 Text Analysis Conference Knowledge Base Population (TAC KBP)的语料集
2021-09-29 16:52:25
3.49MB
ACE2005
TAC KBP
事件抽取语料
TEACED
1
Brown
Corpus
(Brown
Corpus
布朗语料库)-数据集
布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸文本、书籍以及政府文件,包含 1,014,312 个单词的它主要用于语言建模。 cats.csv brown-meta.json brown.csv Brown
Corpus
布朗语料库_datasets.txt Brown
Corpus
布朗语料库_brown_datasets.zip
2021-09-28 19:16:04
9.08MB
数据集
1
chinese_abstractive_
corpus
抽象式自动摘要中文语教育培训行业抽象式自动摘要中文语料库-数据集
该数据集为教育培训行业抽象式自动摘要中文语料库。 chinese_abstractive_
corpus
_datasets.txt
2021-09-14 10:25:49
239B
数据集
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
风电场风速及功率数据.zip
BP神经网络+PID控制simulink仿真
CUDA并行程序设计 GPU编程指南-中文扫描539页完整版pdf+高质量英文完整591页原版非扫描pdf
cublas64_11.dll cublasLt64_11.dll cusolver64_11.dll
倒立摆的模糊控制(基于simulink仿真,适合初学者).rar
Vivado永久激活license(亲测可用)包(搜集的全部可用LICENSE)
基于MQ2烟雾传感器的STM32F103程序
2019西门子杯六部十层电梯群控参考程序.zip
QT自制精美Ui模板系列(一)桃子风格模板 - 二次开发专用
Academic+Phrasebank+2021+Edition+_中英文对照.pdf
cplex_studio129.win-x86-64.exe CPLEX 12.9直接安装可使用
计算机专业实习日记+实习周记+实习总结
MATLAB车牌识别系统
SSM外文文献和翻译(毕设论文精品).doc
狂神说Java系列笔记.rar
最新下载
国际10-20系统脑电极分布VISO图图.vsdx
校园导游系统课程设计报告
千分尺 螺旋测微器 flash动画
ROSE mirror HA 双机热备软件
魂斗罗素材
国开《计算机绘图》课程形考1-4 .dwg答案(可直接使用)
DS18B20温度采集+串口发送+模块化编程 51单片机
Plex v7.12电视端app
IBM CPLEX 12.10 学术版 mac操作系统安装包
ADC参数测试资料&matlab源程序
其他资源
centos7-atguigu.ova
百度鹰眼API 轨迹追踪的实现
PCB logo 脚本 AD9通用
ESPRIT算法MATLAB仿真程序
e语言-拼多多商家后台登录易语言源码 内有crawlerInfo算法
windows下编译好的Zint库
qt图像处理
计算机图形学的设计作业。。OpenGl源码+论文
QT UDP组播的实现
RFID ISO15693协议标准(中文版)
MATLAB在时间序列建模预测及程序代码
EVCapture.zip录屏软件
原位生长法制备Cu2O-Ag基底及SERS活性研究
2020美团技术年货-后台篇(2).pdf
Unity2019-06-02-06-Layout.unitypackage
资产管理系统VC++源代码
Mann_Kendall IDL程序实现
java简单查询天气
ADXL345加速度传感器 32F103mini板
Turtle Geometry_ The Computer as a Medium for Exploring Mathematics
路由宝L1最新功能最全的老毛子固件
声波方程有限差分