原文:https://blog.csdn.net/qinglingLS/article/details/102926477 不是代码!不是代码!不是代码!代码在上文
2021-07-03 09:45:40 19KB GMM-UBM 说话人确认实验
1
实现按住说话功能. 按住说话,开始录音,停止录音,显示到列表,点击列表项播放。
2021-06-21 14:39:24 944KB android 发送语音 按住说话
1
一个类似于微信的按住说话的录音demo,代码非常通俗易懂,根据按钮的不同状态进行相关的录音业务处理,并且加上了友好的动画
2021-06-18 16:44:34 104KB Swift开发-音频处理
1
自用 效果非常好
2021-06-17 13:27:11 4.99MB 抖音 滚屏 自动说话
matlab说话代码QLearning for Path Planning 这是用于路径规划的Q学习算法(代码+描述)的实现。 这是文件结构: QLearning for Path Planning |-- src |-- data |-- Distance.mat |-- Distance_bigmap.mat |-- NodeSide.mat |-- NodeSide_bigmap.mat |-- Planned |-- PlannedData.mat |-- PlannedData_bigmap.mat |-- GetBigmapMat.m |-- main.m |-- mygetRealObstacle.m |-- mygetRewardTable.m |-- mygetRoutelen.m |-- myQLearningRoute.m |-- myQLearningTrain.m |-- myRouteChange.m |-- time_test.m |-- imgs |-- images used in file 'Readme.md' |-- Readme.md 在以上文
2021-06-16 21:25:56 962KB 系统开源
1
matlab集成c代码 使用MSR-Idendity-toolkit 做GMM-UBM实验的过程记录 speaker recognitiong using GMM-UBM, implementing on MSR-Idendity-toolkit. 零、准备工作 下载MSR工具包,该工具包是matlab代码,即.m文件,。 下载ALIZE工具包,用于提取HTK格式的MFCC特征,如安装有HTK并会用HTK来提取MFCC特征可忽略, 一、提取MFCC特征 由于MSR工具包需要使用htk格式的mfcc特征,而HTK的安装有点复杂,因此这里直接使用ALIZE3.0工具包提取mfcc特征,ALIZE就是使用HTK的HCopy提取特征的,好处是不用安装HTK就可以直接使用HCopy,直接下载ALIZE工具包编译后即可使用。ALIZE下载地址:;ALIZE 官网地址: 用ALIZE的HCopy工具提取mfcc特征的步骤 所用代码为: bin/HCopy -C cfg/hcopy_VCTK_mfcc.cfg -T 1 -S VCTK_train_htk.scp 代码解释: Hcopy工具包的位置在M
2021-06-07 09:46:34 13.05MB 系统开源
1
数据包络分析 _让数据自己说话.pdf
2021-06-05 14:03:13 18.49MB DEA
1
这是一个说话人识别的程序,其中有十个说话人,识别率可达到90% 用matlab编写的
2021-06-03 14:52:45 4.23MB 说话人识别
1
树莓派版本的科大讯飞语音SDK,本人在pcduino上运行成功 原文件夹名Linux_voice_1135_58bd0aa4 在当前目录下执行source 32bit_make.sh即在bin下生成tts_pcar ----------------------- bin: |-- msc |-- msc.cfg(作用:msc调试、生成msc日志) |-- wav(符合标准的音频文件样例) |-- 示例程序可执行文件(samples目录下对应示例生成的可执行文件) |-- gm_continuous_digit.abnf(abnf语法样例) |-- userwords.txt(用户词表样例) doc: |-- iFlytek MSC Reference Manual(API文档,HTML格式) |-- MSC Novice Manual for Windows.pdf(MSC新手指南) |-- Grammar Development Guidelines(语音识别语法规范) |-- Open Semantic Platform API Documents(语义开放平台API文档) include:调用SDK所需头文件 libs: |-- x86 |-- libmsc.so(32位动态库) |-- x64 |-- libmsc.so(64位动态库) samples: |-- asr_sample(语音识别示例) |-- asr_sample.c |-- Makefile |-- make.sh(分为32位和64位执行脚本,建议执行命令:source make.sh) |-- iat_sample(语音听写示例) |-- iat_sample.c |-- Makefile |-- make.sh |-- tts_sample(语音合成示例) |-- tts_sample.c |-- Makefile |-- make.sh |-- sch_speak(语音语义示例) |-- sch_speak.c |-- Makefile |-- make.sh |-- sch_text(文本语义示例) |-- sch_text.c |-- Makefile |-- make.sh |-- iat_record(录音听写示例) |-- iat_record.c |-- Makefile |-- make.sh
2021-05-19 22:40:05 4.42MB 语音 linux
1
该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议,音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分发音单元,因此构建音素识别器,对输入语音信号进行实时音素识别。这提高语音与口型的同步效果,改进了音素识别与输出算法。考虑协同发音影响,利用动态视素生成算法,奖识别得到的音素转化为对应的面部动画参数序列。最后用参数序列驱动按照Mpeg-4面部动画标准参数的3-d头部模型,实现面部动画的同步生成。主观Mos评测结果表明:本文所实现的实时语音驱动虚拟说话人在同步性和逼真度上的Mos评分分别达到了3.42和3.50。
1