只为小站
首页
域名查询
文件下载
登录
马来语数据集:马来西亚马来语文本语料库,https:malaya.readthedocs.ioenlatestDataset.html-源码
马来语数据集,我们收集了马来西亚语料库! 该存储库用于存储和。 我们将不断更新此存储库。 我们如何收集数据集? 对于新闻,文章和字幕,我们使用搜寻器,您可以从此处获取代码 。 对于Bahasa,大多数情况下我们使用Google Translator,您可以从此处获取代码 。 使用社交媒体,我们使用爬虫从Twitter,Facebook和Instagram捕获大多数实时数据,因此我们仅使用Elasticsearch查询进行搜索。 对于语音,我们使用Macbook Air 2013附带的有线麦克风进行录制,同时阅读了bahasa维基百科的一些随机文本。 我们请一些语言学家来监督。 词汇->从翻译中学习不足->自信学习->来自人类的5次迭代。 执照 根据知识共享署名4.0国际许可,可以下载Malay-Dataset用于研究。 这项工作是根据。 仅使用此标签标记的数据 受此许
2021-12-12 14:25:28
236.96MB
text-mining
corpus
malaysia
bahasa
1
The National University of Singapore SMS
Corpus
新加坡国立大学短信语料库-数据集
短消息服务(SMS)消息是一个人从他们的手机发送到另一个人的短消息。它们代表了一种个人交流手段,是当今数字时代重要的交流产物。此数据集包含SMS消息,这些消息是从知道他们正在参加研究项目的用户收集的,并且他们的消息将被公开共享。该数据集包含两种语言的两种SMS消息:新加坡英语和普通话。 sms
Corpus
_zh_2015.03.09.json sms
Corpus
_en_2015.03.09_all.json
2021-12-01 15:12:49
3.56MB
数据集
1
ocr2text:通过OCR将PDF通过OCR转换为UTF-8编码的TXT文件-源码
PDF到TXT(带有OCR) 给定一个或多个可能包含文本格式图像的PDF,请使用OCR(光学字符识别)将内容转换为TXT文件(采用UTF-8编码)。 基本原理 对现有PDF到TXT解决方案的调查发现,没有满足以下所有条件的现有解决方案: 是一种离线工具(用于确保安全的人员信息) 提供从PDF到TXT的转换(大多数现有的OCR集成均假定图像作为输入) 支持多个文件的批处理 假设条件 (当前)这是一个用Python编写的命令行工具。 假定基本熟悉在终端中执行命令以及目录结构。 假定您已安装Python版本3.x以及 。 该脚本依赖于由Google管理的行业标准OCR库,称为 。 由于它是用C ++编写的,因此要使Python能够使用它,就需要单独安装(下面的说明)。 同样,将需要在Windows和Mac系统上安装PDF到图像库 。 设置 视窗 在您的桌面上新建一个名为ocr文件夹(
2021-11-05 11:31:09
44KB
pdf
converter
ocr
corpus
1
汉字频率:从各种来源收集的汉字使用频率数据-源码
汉字频率 通过处理来自各种来源的文本数据来收集汉字使用频率的统计数据。 您可以在目录中找到以下文件: 文件 汉字总数 描述 日期 〜51.5百万 小说和非小说书籍 2015年5月 〜1030万 来自各种来源的在线新闻文章 2015年6月 〜1000万 收集的Twitter消息 2015年6月 约784.6M 日语 2015年5月 请参阅下面的详细说明。 格式 每个文件包含一个数组数组(行)。 每行包含三个字段: (字符串)汉字本身。 第一行中的"all"是特例。 (整数)在分析的数据集中发现多少次。 对于"all"它是包括重复在内的汉字总数。 (浮点数)此字符表示的数据总量的
2021-10-30 16:19:50
929KB
data
japanese
corpus
data-visualization
1
Coursework-1-A-search-engine-for-a-large-text-
corpus
:UoE-IADS CW1,-源码
课业1-大型文本语料库的搜索引擎 UoE-IADS CW1
2021-10-24 01:03:23
4.37MB
Python
1
chinese_sentence_classification_
corpus
.7z
中文问句分类数据集,可用于训练中文问句分类和句向量抽取等任务。
2021-10-18 21:21:22
884KB
中文问句数据集
问句分类
中文句向量
1
china-people-daily-ner-
corpus
.tar.gz
中文命名实体识别数据集
2021-10-18 17:12:25
2.33MB
命名实体识别
1
PPASR中文语音识别(最终级)模型(free_st_chinese_mandarin_
corpus
)
PPASR中文语音识别(最终级)模型(free_st_chinese_mandarin_
corpus
数据集训练的),源码地址:https://github.com/yeyupiaoling/PPASR
2021-10-14 12:08:23
574.47MB
paddlepaddle
语音识别
asr
DeepSpeech2
1
corpus
.rar
事件抽取 事件关系抽取 数据集 包含部分ACE 2005 Multilingual Training
Corpus
和 Text Analysis Conference Knowledge Base Population (TAC KBP)的语料集
2021-09-29 16:52:25
3.49MB
ACE2005
TAC KBP
事件抽取语料
TEACED
1
Brown
Corpus
(Brown
Corpus
布朗语料库)-数据集
布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸文本、书籍以及政府文件,包含 1,014,312 个单词的它主要用于语言建模。 cats.csv brown-meta.json brown.csv Brown
Corpus
布朗语料库_datasets.txt Brown
Corpus
布朗语料库_brown_datasets.zip
2021-09-28 19:16:04
9.08MB
数据集
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
鲸鱼优化算法 WOA matlab源代码(详细注释)
中国地面气候资料日值数据集(V3.0)2010-2019.rar
校园网规划与设计和pkt文件
MAC OS.X.10.8.iso 镜像文件
avantage 软件 xps 处理软件30天后不能使用问题
基于Servlet+jsp+mysql开发javaWeb学生成绩管理系统
scratch版 我的世界.sb2
CNN卷积神经网络Matlab实现
EasyMedia-ui.zip
空间谱估计理论与算法------程序.rar
MVDR,Capon波束形成DO估计.zip
Plexim Plecs Standalone 4.1.2 x64.7z
EEMD算法应用于信号去噪.rar
DS证据理论的MATLAB案例程序源代码
人体姿态检测
最新下载
android-Usb-cdc.apk
aarch64下的libjnetpcap.so文件
OWASP ZAP 2.7.0 版本
vc_runtime_x86
benchmarksql5.0_kingbase.tar.gz
20万中文词库(不含释义)
Dump文件编辑中文版
无线通信系列之基于51单片机的餐厅呼叫系统设计-电路方案
SafeNet GeniusDog精灵狗UGA V3 加密加密狗驱动
allegro PCB 导Flotherm热仿真插件
其他资源
随机过程习题答案(方兆本 缪柏其)
NEC算法数字水印_源代码
图的邻接矩阵表示,深度优先遍历,广度优先遍历实现
OCA OCP认证考试指南全册 Oracle Database 12c
uCOS-III内核实现与应用开发实战指南—基于STM32.pdf
IAR 8.30.3
windows下搭建基于nginx的rtmp服务器
计算机网络数据链路层gobackn协议
信息安全风险评估教程.pdf
vivaldi天线
20110105公共地理框架电子地图配图模板_V1.3.part2
Mysql超详细知识梳理-性能优化篇-思维导图.xmind
ROSv6.48.zip
粤省事移动政务服务平台 第 2 部分:数据规范.rar
基于能效的解码转发中继OFDM链路自适应功率分配方案研究
SPSS 数据排序数据文件.sav
计算机网络(第4版)习题答案(中文版)清华大学出版社
Linux基本指令_backup_04086.emmx
Z9431_ZipFilesFromRadarFiles.bat
魔塔cocos2dx3.x版本
一种基于WiFi的室内定位系统设计与实现
Optisystem视频教程光通信系统设计软件Optiwave
java对接支付宝需要的包_alipay
基于VFP图书管理系统设计
动感互联文章管理系统 v1.0