本文介绍了tacotron2,一种直接从文本合成语音的神经网络结构。该系统由一个循环序列到序列特征预测网络组成,该网络将字符嵌入映射到mel尺度谱图,然后由一个改进的波网络模型作为声码器,从这些谱图合成时域波形。我们的模型实现了4.53的平均意见核心(MOS),与专业录音语音的平均意见核心(MOS)4.58相当。为了验证我们的设计选择,我们对我们系统的关键部件进行了初步研究,并评估了使用mel谱图作为波网络的条件输入而不是语言、持续时间和F0特征的影响。我们进一步表明,使用这种紧凑的声学中间表示法可以显著减小波网结构的尺寸。
2021-06-29 09:09:20 331KB 人工智能 语音合成
混沌系统的基本特点就是系统对初始值的极端敏感性,两个相差无几的初值所产生的轨迹,随着时间的推移按指数方式分离,lyapunov指数就是定量的描述这一现象的量。   Lyapunov指数是衡量系统动力学特性的一个重要定量指标,它表征了系统在相空间中相邻轨道间收敛或发散的平均指数率。对于系统是否存在动力学混沌, 可以从最大Lyapunov指数是否大于零非常直观的判断出来: 一个正的Lyapunov指数,意味着在系统相空间中,无论初始两条轨线的间距多么小,其差别都会随着时间的演化而成指数率的增加以致达到无法预测,这就是混沌现象。   Lyapunov指数的和表征了椭球体积的增长率或减小率,对Hamilton 系统,Lyapunov指数的和为零; 对耗散系统,Lyapunov指数的和为负。如果耗散系统的吸引子是一个不动点,那么所有的Lyapunov指数通常是负的。如果是一个简单的m维流形(m = 1或m = 2分别为一个曲线或一个面) ,那么,前m 个Lyapunov指数是零,其余的Lyapunov指数为负。不管系统是不是耗散的,只要λ1 > 0就会出现混沌。   微分动力系统L yapunov指数的性质   对于一维(单变量) 情形,吸引子只可能是不动点(稳定定态) 。此时λ是负的。对于二维情形, 吸引子或者是不动点或者是极限环。对于不动点,任意方向的δxi , 都要收缩, 故这时两个Lyapunov指数都应该是负的, 即对于不动点, (λ1 ,λ2 ) = ( - , - ) 。至于极限环,如果取δxi 始终是垂直于环线的方向,它一定要收缩,此时λ < 0;当取δxi沿轨道切线方向,它既不增大也不缩小,可以想像,这时λ = 0。事实上,所有不终止于定点而又有界的轨道(或吸引子) 都至少有一个Lyapunov指数等于零,它表示沿轨线的切线方向既无扩展又无收缩的趋势。所以极限环的Lyapunov指数是(λ1 ,λ2 ) = (0, - ) 。   在三维情形下有   (λ1 ,λ2 ,λ3 ) = ( - , - , - ) :稳定不动点;   (λ1 ,λ2 ,λ3 ) = (0, - , - ) :极限环;   (λ1 ,λ2 ,λ3 ) = (0, 0, - ) :二维环面;   (λ1 ,λ2 ,λ3 ) = ( +, +, 0) :不稳极限环;   (λ1 ,λ2 ,λ3 ) = ( +, 0, 0) :不稳二维环面;   (λ1 ,λ2 ,λ3 ) = ( +, 0, - ) :奇怪吸引子。   李雅谱诺夫指数小于零,则意味着相邻点最终要靠拢合并成一点,这对应于稳定的不动点和周期运动;若指数大于零,则意味着相邻点最终要分离,这对应于轨道的局部不稳定,如果轨道还有整体的稳定因素(如整体有界、耗散、存在捕捉区域等),则在此作用下反复折叠并形成混沌吸引子。指数越大,说明混沌特性越明显,混沌程度越高.
2021-06-08 09:00:09 15KB 混沌系统 混沌加密
1
qpsk.m能够实现其数字基带波形,时域波形图及其功率谱图
2021-06-02 18:02:36 2KB matlab
1
OQPSK.m能够实现其数字基带波形,时域波形图及其功率谱图
2021-06-02 18:02:36 2KB matlab
1
将语音转换成语谱图,直接输入语音路径即可实现
2021-05-17 22:54:42 962B Matlab 语音转换 语谱图
1
对线性调频信号LFM信号进行时频分析,运用matlab实现信号的短时傅里叶变换STFT,谱图,WVD,对比这三种方法的时频分辨率,短时傅里叶变换使用高斯窗。程序跑不了的话,可能是时频分析的函数采用的大写格式,换成小写就欧克了。
2021-05-13 10:43:28 3KB matlab 时频分析 STFT 谱图
1
语音信号处理中的语谱图,自己录一段语音,输出时窄带语谱图
2021-05-06 21:31:09 1021B 语谱图
1
Lozi最大Lyapunov指数谱图
2021-05-03 18:06:06 1KB Lozi最大Lyapunov指数
1
近年来,随着社会生活水平的不断提高,人们对机器智能人声识别的要求越来越高。高斯混合—隐马尔可夫模型(Gaussian of mixture-hidden Markov model, GMM-HMM)是说话人识别研究领域中最重要的模型。由于该模型对大语音数据的建模能力不是很好,对噪声的顽健性也比较差,模型的发展遇到了瓶颈。为了解决该问题,研究者开始关注深度学习技术。引入了CNN深度学习模型研究连续语音说话人识别问题,并提出了CNN连续说话人识别(continuous speaker recognition of convolutional neural network, CSR-CNN)算法。模型提取固定长度、符合语序的语音片段,形成时间线上的有序语谱图,通过CNN提取特征序列,经过奖惩函数对特征序列组合进行连续测量。实验结果表明,CSR-CNN算法在连续—片段说话人识别领域取得了比GMM-HMM更好的识别效果。
2021-04-21 20:40:30 1.29MB 连续语音 语谱图 GMM-HMM 深度学习
1
谱图实验介绍 界面即功能介绍: 左上角的图形框(the spectrum of the number) 表示:输入的数字的频谱图; 左下角的图形框(yuputu) 表示:连续输入的号码的语谱图; 右上角的图形框显示输入的数字; 右面中间的16个号码代表按键盘; “hangup”:表示“挂断电话”, 同时将左上角的图形框(the spectrum of the number) 和左下角的图形框(yuputu)清空; “recall”:表示 “重播”,同时将上一次输入的一串号码数值显示 (yuputu)中,并将上次号码的最后一个号码的频谱图显示在 (the spectrum of the number)中。
2021-04-09 15:48:55 18KB matlab 语谱图 数字信号处理
1