Synthetic_Chinese_String_Dataset 中文识别数据集 1 for https://gitee.com/chenyang918/Lets_OCR
2022-05-21 18:41:46 145.81MB data
1
中文普通话词典中文词典/中文词典 自述文件:进行中 关于说明/说明 一组免费的中文普通话词典,可与Goldendict等字典软件配合使用。 Todo接下来要做 姓名 笔记 去做 1。 中文单词频率 基于单词语料库和HSK等级 ✓ 2。 让我成为汉字 动画和说明 ✓ 3。 成语 来自免费提供的论文以及免费提供的英语翻译? BCC成语词典-?license (要上传,请添加完整参考)检查法律条款 4, CC-Cedict 带有放大字符 ✓ 5, 手令 使用德语的英语机器翻译(用于cc-cedict中未找到的单词) ✓ 6, 中文语音词典 与注音,拼音和IPA,英语“听起来像”(使用FSI / wiki?),添加GPL音频 (上传) 7 Unihan字符词典(字典) ✓ 8。 词组词典 tatoeba(使用分词)/ CUV圣经(已分段) 9。 习语-斯卡伯
2022-05-21 15:31:08 233.17MB dictionaries dictionary corpus hanzi
1
三、医疗大数据的四大特征 医疗大数据呈现以下四个特点: 第一,数据量大。从 TB 到 PB 到 EB,再到 ZB,医疗大数据以 48%的年增长率快速增长(IDC, 2014)。这些数据早已超过了人力所能处理的极限。预计到 2020 年,全球医疗大数据将达到 2314EB,已经达到了 ZB 级别。 第二,数据种类多。医疗数据中既有结构化的数据,也有非结构化的数据。结构化数据包括 Oracle、MySql 等数据库的数据,半结构化数据如 XML 文档,非结构化数据包括 Word、PDF、 音视频、影像等。多种类型的数据对数据的处理能力提出了更高的要求。 第三,数据产生快,处理快。医疗信息服务中会存在大量在线或实时数据分析处理的需求。需 对数据进行实时或准实时的处理、秒级的查询需求响应。例如临床中的诊断和处方数据,健康 指标预警等。 第四,数据缺乏标准。各个医生、各家医疗机构、各个地区的数据没有统一的规范标准,数据 的质量不佳。患者的基础信息和各种临床信息资源分散、重复、孤立,导致有效信息闲置、信 息重复或标准不一致,很难得到有效利用。
2022-05-17 13:31:36 3.5MB 医疗大数据 大数据 大数据报告
1
The prevalence in Chinese of grammatical structures that translate into English in different word orders is an important cause of translation difficulty. While previous work has used phrase-structure parses to deal with such ordering problems, we introduce a richer set of Chinese grammatical relations that describes more semantically abstract relations between words. Using these Chinese grammatical relations,we improve a phrase orientation classifier (introduced by Zens and Ney (2006)) that decides the ordering of two phrases when translated into English by adding path features designed over the Chinese typed dependencies. We then apply the log probability of the phrase orientation classifier as an extra feature in a phrase-based MT system, and get significant BLEU point gains on three test sets: MT02 (+0:59), MT03 (+1:00) and MT05 (+0:77). Our Chinese grammatical relations are also likely to be useful for other NLP tasks.
2022-05-17 10:50:02 627KB Chinese parse MT system
1
tensorflow-chatbot-中文 :person_running: [中文聊天机器人]具有bahdanau注意和Word2Vec预训练嵌入的seq2seq模型的Tensorflow实现 此基于撰写的。 如何 [选项1]重新训练模型 $ git clone https://github.com/AdrianHsu/tensorflow-chatbot-chinese.git # put your own training/eval data in the correct path, as shown above $ ./run.sh [选项2]使用预先训练的保护程序文件测试模型 您应该在下载经过预训练的模型,然后将其放入save/目录。 确保您的输入已经放置在正确的路径中,并且已通过文本分段API(例如jieba)进行了预处理。 $ ./hw2_seq2seq.sh 操作方法(网络) 您必须先下载冻结
2022-05-13 18:27:54 13.64MB nlp deep-learning tensorflow chatbot
1
google bert
2022-05-11 22:51:21 364.49MB python bert
1
ctb8.0(Chinese Treebank 8.0)数据集 介绍:Chinese Treebank 8.0 包含大约 150 万字广播的注释和解析文本,来自中文新闻专线、政府文件、杂志文章、各种广播新闻 对话节目、网络新闻组和博客。 中国树库项目于 1998 年在宾夕法尼亚大学开始,在科罗拉多大学继续,然后转移到布兰代斯大学。该项目的目标是提供一个大型的、词性标记的和完全括号括起来的中文语料库。第一个交付,中国树库 1.0,包含来自新华社新闻专线的 100,000 个句法注释词。它后来被更正并于 2001 年作为中国树库 2.0 (LDC2001T11)发布,由大约 100,000 字组成。2004年, LDC发布了中文树库4.0(LDC2004T05),更新版本约40万字。一年后,LDC发布了50万字的中文树库5.0(LDC2005T01)。2007年发布的中文树库6.0(LDC2007T36),包含78万字。Chinese Treebank 7.0 (LDC2010T08)于 2010 年发布,增加了新的带注释的新闻专线数据、广播材料和网络文本,总字数约为 100 万字。
2022-05-10 20:06:17 3.98MB 学习 文档资料
中文简体字,约七千个。给有需要的朋友
2022-05-06 07:15:16 26KB 简体字 字库 汉字 汉字大全
1
awesome-telegram-cn:电报开发资源,机器人资源整理
2022-05-04 01:46:32 4KB awesome telegram telegram-bot chinese
1
可用于UnityVR开发,3D游戏开发,高清天空盒子Skybox素材,游戏环境背景素材,无水印。 让你身临其境的天空盒子,各类题材丰富,都是辛苦搜罗所得的高清exr格式,可以直接用于Unity开发,特别是VR游戏的开发。 内景、外景、城市、乡间、日出,夜晚,欧式宫殿,中式园林,应有尽有,可以在我的下载频道选择需要的下载。 注意,由于是高清,所以体积较大(大的可以达到500M),请下载前预留合适的空间。 使用方法: 1-导入Unity后将图片的Shape转换成cube形式, 2-创建空Material,并转换成Cube/skybox形式, 3-将图片拖入新建的SkyboxMaterial, 4-用刚创建的Material代替项目中原本的系统默认Skybox
2022-05-03 14:11:08 362.51MB unity vr skybox 天空盒子