VQ-VAE 这是VQ-VAE的轻量级(200 loc)实现。 用于减少计算到嵌入距离所需的内存。 引入了一个敏感度术语,以使所有嵌入都使用。 从距离到嵌入的时间减去了一段时间以来未使用的灵敏度。 在找到最小距离之前。 要求 Python 3.6 PyTorch 0.3 张量理解 训练 默认情况下,它在cifar10上训练 python vq-vae-img.py 编辑超级参数,源代码中的路径以在ImageNet上进行训练 我使用跟踪模型学习进度。 默认情况下它是关闭的,使用--lera启用它。 经过40k次迭代(K = 512,D = 128)后的ImageNet重建 执照 麻省理工学院
2023-04-07 20:06:23 58KB Python
1
补丁VQ Patch-VQ:“修补”视频质量问题 演示版 请按照 测试在LSVQ数据库上预训练的Patch VQ模型。 请按照在您的数据库上测试我们的Patch VQ模型。 下载LSVQ数据库 描述 对于社交和流媒体应用程序,无参考(NR)感知视频质量评估(VQA)是一个复杂,尚未解决的重要问题。 需要有效,准确的视频质量预测器来监视和指导数十亿个用户共享内容(通常是不完美的内容)的处理。 不幸的是,当前的NR模型在真实的,“野生的” UGC视频数据上的预测能力受到限制。 为了推进这一问题的发展,我们创建了迄今为止最大的主观视频质量数据集,其中包含39,000个真实世界的失真视频和117,000个时空本地化的视频补丁(“ v-patches”),以及5.5M人类的感知质量注释。 使用此工具,我们创建了两个独特的NR-VQA模型:(a)基于本地到全球区域的NR VQA体系结构(称为PVQ
1
基于矢量量化(VQ)的说话人识别matlab实现
2022-05-29 16:05:24 1.76MB matlab 源码软件 开发语言
基于矢量量化(VQ)的说话人识别matlab代码
2022-05-24 21:05:38 1.74MB matlab 说话人识别 VQ 矢量量化
1
在MATLAB环境下实现基于矢量量化的说话人识别系统。在实时录音的情况下,利用该说话人识别系统,对不同的人的1s~7s的语音进行辨识。实现与文本无关的自动说话人确认的实时识别。 使用说明: 1 训练打开Matlab 使Current Directory为VQ所在的文件夹(比如:E:\vq) 在Command windows中输入
2022-04-16 15:56:16 691KB MATLAB VQ 说话人识别系统
1
Linde、Buzo 和 Gray (LBG) 提出了一种基于训练序列的 VQ 设计算法。 训练序列的使用绕过了多维集成的需要。 LBG 算法属于迭代类型,在每次迭代中需要处理大量向量,通常称为训练集。 通常,从一组待编码的典型信号中采样的向量共同构成一个训练集 T={x1,x 2,?.x M} ,其中 xi 表示采样的训练向量,M 表示训练集的大小大于码本大小 N。
2022-04-15 09:18:12 85KB matlab
1
Matlab平台下的使用VQ模型的语音识别代码,绝对可用
2022-04-13 21:05:25 23KB matalab VQ
1
矢量量化(VQ)技术 概述 基本原理 失真测度 矢量量化器的最佳码本设计 矢量量化技术的优化设计 动态时间规整(DTW)技术 一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。 语音学和声学的方法 该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。 神经网络的方法 基于ANN的语音识别系统通常由神经元、训练算法及网络结构等三大要素构成。由于基于神经网络的训练识别算法由于实现起来较复杂,目前仍只是处于实验室研究阶段。 模板匹配 作用是按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就是识别结果。 模板匹配的方法发展比较成熟,目前己达到了实用阶段。 常用的技术有三种: 矢量量化(VQ)技术 动态时间规整(DTW)
2022-04-06 14:08:13 1.21MB 矢量量化 VQ VectorQuantizat 语音识别
1
vq-vae-2-pytorch在PyTorch中使用VQ-VAE-2生成各种高保真图像的实现必需的Python> = 3.6 PyTorch> = 1.1 lmdb(用于存储提取的代码)VQ-VAE pretra vq-vae-2的检查点-pytorch在PyTorch更新2020-06-01中使用VQ-VAE-2生成各种高保真图像的实现现在支持分布式训练。train_vqvae.py和vqvae.py现在支持分布式训练。 您可以对train_vqvae.py使用--n_gpu [NUM_GPUS]个参数在训练期间使用[NUM_GPUS]。 必需的Python> = 3.6 PyTorch> = 1.1 lmdb(用于存储提取的代码)在FFHQ上预先训练的VQ-VAE的检查点用法当前支持256px(顶部/底部优先级)Stage 1(VQ-VAE)python train_v
2022-04-04 07:32:42 6.87MB Python Deep Learning
1
按照书上语音压缩的LBG矢量量化基本算法实现的C代码,希望对初学者有帮助,不过里面没有空胞腔的处理,希望大家补充!!
2022-03-27 09:49:33 3.92MB LBG 矢量量化 VQ
1