在本文中,我们提出了一种新的深度神经网络。对于给定的三维传感器捕获的数据,它能够联合进行三维检测、跟踪和运动预测。 通过共同进行这些任务,我们的整体方法对于遮挡以及范围内的稀疏数据鲁棒性更强。 我们的方法在空间和时间上对3D鸟瞰图执行三维卷积,这在内存和计算方面都非常有效。 我们在北美几个城市拍摄的一个新的超大型数据集上进行的实验表明,我们可以大幅度超越最先进的技术。 重要的是,通过共享计算,我们可以在30毫秒内执行所有任务。
2021-11-17 15:25:03 1.41MB 深度学习 3D目标检测
1
银行票据验证与docker端到端实现 钞票认证端到端使用Docker实施|英特尔:registered:开发人员专区使用Flasgger构建UI |英特尔:registered:开发人员专区与Streamlit一起部署| 烧瓶 关于数据 数据是从从真实的和伪造的钞票状标本中获取的图像中提取的。 为了数字化,使用了通常用于打印检查的工业相机。 最终图像具有400x 400像素。 由于物镜和到被研究物体的距离,获得了分辨率约为660 dpi的灰度图片。 小波变换工具用于从图像中提取特征。 问题陈述很简单: 问题陈述 如有关数据部分中所述,有笔记的灰度图片,分辨率约为660 dpi。 小波变换工具被用来从图像中提取特征。我们具有四个特征['Variance', 'skewness', 'curtosis', 'entropy']并且我们必须预测['Variance', 'skewness', 'curtosis', 'entropy'
2021-11-12 05:46:06 245KB JupyterNotebook
1
Deepvoice3_pytorch 基于卷积网络的文本到语音合成模型的PyTorch实现: :深度语音3:通过卷积序列学习将文本转换为语音。 :基于深度卷积网络并具有指导性注意力的高效可训练的文本语音转换系统。 音频示例可从。 民间 :具有WORLD声码器支持的DeepVoice3。 在线TTS演示 可以在上执行的笔记本可用: 强调 卷积序列到序列模型,用于文本到语音合成 DeepVoice3的多扬声器和单扬声器版本 音频样本和预训练模型 用于 , 和数据集以及兼容的自定义数据集(JSON格式) 取决于语言的英语和日语前端文本处理器 样品 预训练模型 注意:预训练的模型与母版不兼容。 即将更新。 网址 模型 数据 超参数 Git提交 脚步 深度语音3 LJSpeech 64万 Nyanko LJSpeech builder=nyanko,preset=nyanko_ljspeech 585k 多扬声器DeepVoice3 VCTK builder=deepvoice3_multispeaker,preset=deepvoice3_vctk 300k
2021-10-07 15:36:39 6.72MB python machine-learning end-to-end pytorch
1
The use of Python for data analysis and visualization has only increased in popularity in the last few years. The aim of this book is to develop skills to effectively approach almost any data analysis problem, and extract all of the available information. This is done by introducing a range of varying techniques and methods such as uni- and multi- variate linear regression, cluster finding, Bayesian analysis, machine learning, and time series analysis. Exploratory data analysis is a key aspect to get a sense of what can be done and to maximize the insights that are gained from the data. Additionally, emphasis is put on presentation-ready figures that are clear and easy to interpret.
2021-09-18 14:14:39 19.25MB Python
1
Pytorch 上的端到端语音识别 基于 Transformer 的语音识别模型 如果您在工作中使用了本工具包中包含的任何源代码,请引用以下论文。 Winata,GI,Madotto,A.,Wu,CS,&Fung,P.(2019年)。 使用来自并行句子的基于神经的合成数据的代码切换语言模型。 在第23届计算自然语言学习会议(CoNLL)的会议记录中(第271-280页)。 Winata, GI, Cahyawijaya, S., Lin, Z., Liu, Z., & Fung, P. (2019)。 使用 Low-Rank Transformer 的轻量级和高效的端到端语音识别。 arXiv 预印本 arXiv:1910.13923。 (被ICASSP 2020接受) Zhou, S., Dong, L., Xu, S., & Xu, B. (2018)。 使用 Transfor
2021-09-05 18:50:50 106KB end-to-end speech pytorch transformer
1
神经网络 | DeepVO:Towards End-to-End Visual Odometry-附件资源
2021-08-31 16:27:58 106B
1
CaptionNet: Automatic End-to-End Siamese Difference Captioning Model With Attention
2021-08-04 15:05:26 7.83MB 深度学习
文本到语音合成系统通常由多个阶段组成,例如文本分析前端、声学模型和音频合成模块。构建这些组件通常需要广泛的领域专业知识,并且可能包含脆弱的设计选择。在本文中,我们提出了Tacotron,一个端到端生成的文本到语音模型,直接从字符合成语音。在给定对的情况下,可以通过随机初始化完全从头开始训练模型。我们提出了几个关键技术,使sequence-to-sequence框架能够很好地执行这项具有挑战性的任务。Tacotron在美式英语上获得了3.82分的主观5级平均意见分数,在自然度方面优于生产参数系统。此外,由于Tacotron在帧级别生成语音,因此它比样本级别的自回归方法快得多。
2021-06-29 09:02:52 504KB 人工智能 语音合成
计算机视觉Github开源论文
2021-06-03 09:09:12 487KB 计算机视觉
1
License-plate-recognition 使用 "Darknet yolov3-tiny" 训练检测模型 1. 下载,提取码: j7c2. 2. 将data.zip解压到darknet.exe所在目录下. 3. 进入data/voc目录下运行voc_label.bat重新生成2019_train.txt, 2019_val.txt. 4. 修改cfg/yolov3-tiny.cfg [net] batch=64 subdivisions=4 // 这里根据自己内存大小修改(我11G显存设置2时,中途会out of memory. 所以设置4, 训练时显存占用约6G) angle=5 // 增加旋转角度产生样本 max_batches = 220000 //最大迭代次数 steps=70000,200000 //调整学习率变化
2021-05-29 01:17:27 211KB gpu end-to-end darknet yolov3-tiny
1