VidTIMIT Audio Video Dataset国内源下载

Audiodataset VidTIMIT

VidTIMIT数据集由43人背诵短句的视频和相应的音频记录组成。它可以用于唇读、多视角人脸识别、多模态语音识别和人脸识别等领域的研究。数据集记录在3个会话中，会话1和会话2之间的平均延迟为7天，会话2和会话3之间的平均延迟为6天。这些句子是从TIMIT语料库的测试部分选择的。每人有10个句子。前6个句子(按文件名按字母数字排序)分配给会话1。接下来的两句话分配给会话2，剩下的两句话分配给会话3。所有人的前两句话都是一样的，剩下的八句话则因人而异。除了句子之外，每个人在每个环节都要进行头部旋转。这个序列包括人向左，向右，回到中心，向上，然后向下，最后回到中心。录音是在办公环境中使用广播质量的数字摄像机进行的。每个人的视频被存储为一个编号序列的JPEG图像，分辨率为512 x 384像素。在JPEG图像的创建过程中使用了90%的质量设置。相应的音频存储为单声道，16位，32千赫WAV文件。

文件下载

评论信息

其他资源

免责申明

【只为小站】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【只为小站】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【只为小站】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，zhiweidada#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

VidTIMIT Audio Video Dataset国内源下载

文件下载

评论信息

其他资源

免责申明

个人信息

相关资源标签

热门下载

最新下载