并行WaveNet声码器 概述 这是一个实验项目,建立了一个基于WaveNet的声码器,该声码器在论文的启发下将梅尔频谱图并行转换为原始波。 由于非自回归模型之一的的结构,我们能够并行生成顺序数据。 由于在最大似然估计中无法直接直接对IAF模型进行优化,从而无法找到合适的最优值,因此难以一概而论,因此,本文引入了一种替代方法,即概率密度蒸馏。 它预先训练原始的WaveNet(教师),然后通过最小化两个概率之间的KL差异来优化IAF模型(学生)以对相似的输出概率进行建模。 如果再想一想,我们可以得出结论,“自回归”损失被强加给IAF模型,IAF模型本身就是非自回归模型。 这意味着,在训练序列生成模型时,“自回归”约束仍然是关键。 为了优化模型,我只尝试了简单模型(MLE),因为我对设计替代模型的动机感到好奇。 总之,在我的案例中,在没有自回归约束的情况下优化IAF模型几乎是不可行的。
2022-07-26 15:03:03 779KB Python
1
为了适应复杂的低速率语音通信场合,设计了一种多速率声码器,能够实时完成2.4kb/s,1.2kb/s 和 0.6kb/s 3种速率的编解码算法。利用多种语音特征参数,对清浊音采用有监督学习的支持向量机(Support Vector Machine, SVM)进行判决,解决合成语音的偶发性嘶哑、变调等问题。针对多数声码器选用的DSP片上内存不足需外挂FLASH的问题,TMS320F28335 DSP能够满足多速率语音编解码算法对存储空间的需求,不需要额外设计存储器,在功耗、体积和成本方面具有一定优势。另外,由于采用独特的硬件接口控制方式,很方便地实现了速率的转换功能,大大提高了声码器的灵活性和适用范围。测试结果表明,该多速率声码器合成语音清晰自然,在通信系统应用中表现出了良好的性能。
1
相位声码器 Python中的相位声码器此模块基于PyGame和PyAudio。 只需在播放声音时更改帧速率即可实现音高转换。 但是以这种方式,信号的长度也改变了。 因此,如果我们可以在不改变音高的情况下缩放信号时间,则可以得到具有相同长度的原始声音的音高偏移版本。 时间缩放 因此,音高变化中最重要的部分就是时间缩放。 为了缩短时间,我们在采用STFT和逆STFT时可以使用不同的跳数。 缩放步长时,窗口大小是相同的。 但是我们不能仅仅将帧加起来进行重建。 为了减少不连续性,我们需要进行一些频谱处理。 这种技术称为相位声码器。 它包括三个阶段:分析,处理和综合。 相位校正 在频域中,声波被解释为频率的幅度和相位。 我们通常不修改频率的幅度,因为幅度表示频率分量的能量。 因此,我们仅纠正相位。 锁相 在相位校正过程中,可能会有一些彼此靠近的频率,因此它们之间的信号仓将同时受到两个频率的影响。
2022-05-11 21:55:16 620KB Python
1
phasevocoder:用于时间缩放和音高转换等的相位声码器。(c)2008-2020版权所有(c)Klaus Michael Indlekofer。 版权所有。 注意:有特殊限制。 请参阅下面和发行版中的免责声明。 (我们与该页面上提及的公司/个人没有任何关系。所有品牌名称和商标均为其各自所有者的财产。)
2022-05-10 08:50:06 27KB 开源软件
1
巴特沃斯带通滤波器的matlab代码声码器 本节中的代码用于实现各种声码器,通常用于声学模拟耳蜗植入物用户通过其设备体验的声音。 该代码库最初是由Stuart Rosen制作的,后来由Bob Carlyon进行了修改,并且由于或多或少地完全以一种更现代的风格进行了重写,并添加了许多附加功能。 免责声明:本手册是在假定读者对声码器工作原理有一些了解的前提下编写的。 如果不是这种情况,请与有声码器经验的人联系,因为选择错误的参数非常容易。 知道您在做什么,并且不要以为该代码是万无一失的。 它绝对没有保修,并且仅供参考。 最后,请始终在查看最新版本。 vocode()函数应该可以处理很多情况,因此可以接收一组相当复杂的参数。 所述函数的调用方式如下: [y, fs]=vocode(x,fs,p) 。 x是(单通道,即单声道)信号。 fs是采样频率, p是具有所有参数的结构。 该函数返回y ,即x的声码版本。 本文档介绍了如何设置参数结构p 。 p有四个主要部分: analysis_filters :描述用于分析目的的过滤器组。 synthesis_filters :描述用于合成的过滤器组。
2022-04-26 11:24:36 140KB 系统开源
1
matlab提取文件要素代码声码器(2013) 本节中的代码用于实现各种声码器,通常用于声学模拟耳蜗植入物用户通过其设备体验的声音。 该代码库最初是由Stuart Rosen制作的,后来由Bob Carlyon进行了修改,并且由于或多或少地完全以一种更现代的风格进行了重写,并添加了许多附加功能。 本手册是在读者对声码器的工作原理有一定了解的前提下编写的。 vocode()函数应该可以处理很多情况,因此可以接收一组相当复杂的参数。 所述函数的调用方式如下: [y, fs]=vocode(x,fs,p) 。 x是(单通道,即单声道)信号。 fs是采样频率, p是具有所有参数的结构。 该函数返回y ,即x的声码版本。 本文档介绍了如何设置参数结构p 。 p有四个主要部分: analysis_filters :描述用于分析目的的过滤器组。 synthesis_filters :描述用于合成的过滤器组。 envelope :描述如何提取信封。 synth :描述将要使用的载体的类型,以及如何将其与信封结合使用。 这些内容均以相同的顺序记录在下面。 为了给您有关如何使用代码的概述,下面是一个完整的
2022-04-26 11:06:13 4.06MB 系统开源
1
使用matlab仿真;包含原声频和升速降速升调降调后的音频;并对比导出了不同处理声音的时域频谱图
2022-04-06 03:00:04 9.58MB matlab 音视频 phasevocoder 相位声码器
1
语音处理指定了一个由 Lawrence Rabiner 教授(罗格斯大学和加州大学圣巴巴拉分校)、Ronald Schafer 教授(斯坦福大学)、Kirty Vedula 和 Siva Yedithi(罗格斯大学)组成的团队。 此练习是一组语音处理练习之一,旨在补充LR Rabiner和RW Schafer编写的教科书“数字语音处理的理论和应用”中的教材。 这个 MATLAB 练习构建了一个 LPC 声码器,即对语音文件执行 LPC 分析和合成,从而产生对原始语音的合成语音近似。 LPC 分析使用标准自相关分析来逐帧确定 LPC 系数集以及基于帧的增益 G。独立的分析方法(倒谱基音周期检测器)对每个帧进行分类语音可以是有声语音(其周期由指定基音周期范围内的倒谱峰位置确定)或无声语音(由随机噪声帧模拟),指定为 0 个样本的帧基音周期。 独立分析为处理的 LPC 合成部分提供两态激励函数,
2022-03-20 18:59:19 3.17MB matlab
1
HC32F460通过codec2声码器进行编解码,通过串口与PC端的codec2声码器编解码。可以将HC32F460芯片换成STM32F40x的芯片,主频跑在168M,优化等级O0,2400bps速率,20ms帧长编解码14ms左右。编码速率低,所以不能像G.729一样传音乐。
2022-02-01 19:05:41 13.41MB codec2 声码器 STM32 语音编解码
1
Codec2声码器源码移植到VS2013上,编译通过可以运行,暂不支持700和700b。
2022-02-01 09:11:40 1.76MB Codec2声码器
1