PyTorch + Catalyst实现的“ 。 该存储库处理培训过程。 为了进行推断,请检出GUI包装器:PyQT中的 。 该储存库已与合并为。 目录 要求 计算方式 我们在1050 Mobile和Tesla V100的两个GPU上运行了该程序。 我们没有进行任何基准测试,但是V100的速度大约提高了400倍。 它还取决于您下载的数据量。 因此,任何服务器级GPU都是可行的。 贮存 该程序确实会生成很多文件(下载和其他方式)。 每个音频文件的大小为96kiB。 对于7k独特的音频剪辑,并以70/30的比例进行火车和验证拆分,它占用了约120GiB的存储空间。 因此,如果您下载更多音频片段,则至少为1TB 。 记忆 至少需要4GB VRAM 。 它可以处理2个批处理大小。在20个批处理大小下,在两个GPU上,每个GPU占用16GiB VRAM。 设置 如果您使用的是Docker,则
1
matlab ica 独立成分分析代码独立子空间分析:盲源分离 结构化数据课程项目:学习、预测、依赖、测试 重现我们的实验: 运行以下脚本: Experiment_ecg.py : 能够对心电图数据执行多维 ICA 的脚本(心电图的 3 个通道,我们希望将婴儿的心电图与其妈妈的心电图分开,与 Cardoso 的论文 (1) 中的相同)改编自 Cardoso 的论文多维独立成分分析(1)。 ICA 的可用实现是 JADE 和 FastICA。 Experiments_audio.py :能够对音频数据执行 ICA、多维 ICA 和 FastISA 的脚本。 通过更改标志,可以执行以下任一操作: ICA(将标志方法设置为ica )对两首歌曲的混合(使用 JADE 或 FastICA(将标志算法设置为jade或fastICA )) 混合曲目上的 MICA(将标志方法设置为mica )在两首歌的混合(使用 JADE 或 FastICA(将标志算法设置为jade或fastICA )) 混合轨道上的 fastISA(将标志方法设置为 fastISA) Experiments_images.py :
2023-02-15 10:59:34 4.83MB 系统开源
1
提取均值信号特征的matlab代码两个扬声器的基于 LSTM/BLSTM 的 PIT 在多通话者混合语音分离和识别方面取得的进展,通常被称为“鸡尾酒会问题”,并没有那么令人印象深刻。 尽管人类听众可以很容易地感知混合声音中的不同来源,但对于计算机来说,同样的任务似乎极其困难,尤其是当只有一个麦克风记录混合语音时。 1. 运行性能 注意:训练集和验证集包含通过从 WSJ0 集中随机选择说话者和话语生成的两个说话者混合,并以 -2.5 dB 和 2.5 dB 之间统一选择的各种信噪比 (SNR) 混合它们. 对于LSTM ,不同性别的混合音频结果如下: 对于BLSTM ,不同性别的混合音频结果如下: 从上面的结果可以看出,混合性别音频的分离效果优于同性音频,BLSTM 的性能优于 LSTM。 2. 评价标准 SDR:信号失真比 SAR:信号与伪像的比率 SIR:信号干扰比 STOI:短期客观可懂度测量 ESTOI:扩展的短期目标可懂度测量 PESQ:语音质量的感知评估 3. 依赖库 matlab(我的测试版:R2016b 64位) tensorflow(我的测试版本:1.4.0) anac
2022-12-21 11:33:49 5.37MB 系统开源
1
matlab声音信号相位差代码语音分离和增强 说明 该程序包含几种流行的方法及其变体,用于语音分离和增强。 该程序的目的是快速实现,测试和比较方法。 麦克风阵列的默认模型是6 + 1(外围+中央)圆形阵列。 测试数据是基于TIMIT数据库的ISM方法[1,2]生成的。 语音箱工具箱是必需的。 所有代码均由Ke Zhang用Matlab编写和更新。 如果您发现任何错误或错误,请与我联系。 主要方法列表: 波束成形: DSB MVDR 轻型商用车 最大信噪比/ GEVD 盲源分离(BSS): ICA 艾娃 辅助IVA 过度IVA 劳协 快速MNMF 通常,波束成形中的方法使用源的导引矢量或其他空间信息来增强目标语音,而BSS方法仅使用源的数量,除了某些情况下,用于解决置换歧义。 用户指南 主要功能是command.m,您可以在其中设置声源的数量和角度(0-45-315度),并在列表中选择要测试的算法(将对应方法后面的值设置为1正在运行,则为0)。 可以在ISM_setup.m中设置仿真环境,例如用于混响的T60(支持0、0.3s,0.6s,0.9s),麦克风阵列的配置以及用于噪声添加的No
2022-12-02 22:33:12 20.41MB 系统开源
1
歌声分离RNN 雷茂 芝加哥大学 介绍 这是使用递归神经网络(RNN)开发的歌声分离工具。 它可以将歌手的声音和背景音乐与原始歌曲区分开。 由于分离尚不完善,因此它仍处于开发阶段。 请检查演示的性能。 依存关系 的Python 3.5 脾气暴躁的1.14 TensorFlow 1.8 RarFile 3.0 进度栏2 3.37.1 LibROSA 0.6 Matplotlib 2.1.1 档案文件 . ├── demo ├── download.py ├── evaluate.py ├── figures ├── LICENSE.md ├── main.py ├── model ├── model.py ├── preprocess.py ├── README.md ├── songs ├── statistics ├── train.py └── utils.py 数据
2022-06-22 10:48:33 62.53MB recurrent-neural-networks source-separation Python
1
A Speaker-Independent Audio-Visual Model for Speech Separation(高质量翻译By翻译狗),详细解析音频分离的实现方式
2022-06-04 14:07:02 13.07MB 音频分离
1
自适应颜色解卷积 (ACD) ============ 这是基于我们论文中描述的自适应颜色反卷积的组织学图像颜色归一化的实现: Yushan Zheng、Zhiguo Jiang、Haopeng Zhang、Fengying Xie、Jun Shi 和 Chenghai Xue,用于组织学 WSI 归一化的自适应颜色反卷积,生物医学中的计算机方法和程序,v170(2019)第 107-120 页。 要求 TensorFlow(1.3 或更高版本) Python 3.6 麻木 1.14.0 opencv-python 3.4.1 引用 如果您在自己的工作中使用此代码,请引用以下论文: @article{zhengCMPB2019, title = {Adaptive color deconvolution for histological WSI normalizat
1
Guns-Separation是Guns后台管理系统的前后端分离版本,项目采用前后端分离架构,代码简洁,功能丰富,开箱即用,开创快速开发平台新趋势。 Guns-Separation功能介绍: 1、主控面板:控制台页面,可进行工作台,分析页,统计等功能的展示。 2、用户管理:对企业用户和系统管理员用户的维护,可绑定用户职务,机构,角色,数据权限等。 3、应用管理:通过应用来控制不同维度的菜单展示。 4、机构管理:公司组织架构维护,支持多层级结构的树形结构。 5、职位管理:用户职务管理,职务可作为用户的一个标签,职务目前没有和权限等其他功能挂钩。 6、菜单管理:菜单目录,菜单,和按钮的维护是权限控制的基本单位。 7、角色管理:角色绑定菜单后,可限制相关角色的人员登录系统的功能范围。角色也可以绑定数据授权范围。 8、字典管理:系统内各种枚举类型的维护。 9、访问日志:用户的登录和退出日志的查看和管理。 10、操作日志:用户的操作业务的日志的查看和管理。 11、服务监控:服务器的运行状态,Java虚拟机信息,jvm等数据的查看。 12、在线用户:当前系统在线用户的查看。 13、数据监控:druid控制台功能,可查看sql的运行信息。 14、公告管理:系统的公告的管理。 15、文件管理:文件的上传下载查看等操作,文件可使用本地存储,阿里云oss,腾讯cos接入,支持拓展。 16、定时任务:定时任务的维护,通过cron表达式控制任务的执行频率。 17、系统配置:系统运行的参数的维护,参数的配置与系统运行机制息息相关。 18、邮件发送:发送邮件功能。 19、短信发送:短信发送功能,可使用阿里云sms,腾讯云sms,支持拓展。 Guns-Separation快速开始 准备以下环境: 1、npm,jdk1.8,maven 3.6或以上版本。 2、需要准备一个mysql 5.7数据库。 3、您的IDE需要安装lombok插件。 前端运行: 1、cd _web/ 2、npm install 3、npm run serve 后端运行: 1、将数据库文件_sql/guns-separation.sql导入到数据库 2、修改guns-main/src/main/resources/application-local.yml文件,修改为您的数据库ip,账号和密码 3、运行guns-main/src/main/java/cn/stylefeng/guns/GunsApplication类,即可启动后端程序 框架优势: 1、模块化架构设计,层次清晰,业务层推荐写到单独模块,方便升级。 2、前后端分离架构,分离开发,分离部署,前后端互不影响。 3、前端技术采用vue + antdv + axios。 4、后端采用spring boot + mybatis-plus + hutool等,开源可靠。 5、基于spring security(jwt) + 用户UUID双重认证。 6、基于AOP实现的接口粒度的鉴权,最细粒度过滤权限资源。 7、基于hibernate validator实现的校验框架,支持自定义校验注解。 8、提供Request-No的响应header快速定位线上异常问题。 9、在线用户可查,可在线踢人,同账号登录可同时在线,可单独在线(通过系统参数配置)。 10、支持前端 + 后端在线代码生成(后续开放)。 11、支持jenkins一键部署,另自带docker maven插件,支持docker部署。 12、文件,短信,缓存,邮件等,利用接口封装,方便拓展。 13、文件默认使用本地文件,短信默认使用阿里云sms,缓存默认使用内存缓存。 14、文档齐全,持续更新,视频教程将发布到Bilibili(后续开放)。 演示账号密码:superAdmin/123456 Guns-Separation v1.1更新内容: 1、增加上传图片的预览功能 2、完善数据范围分配时候的判断逻辑 3、授权数据取消父级子级关联 4、【前端】工作台界面使用静态数据、环境显示抽屉默认设置为全显示 5、统一日志打印格式 6、修复邮件发送异常的问题 7、修复菜单遍历没有修改子应用的问题 8、默认去掉oss,cos,短信的依赖包,减少了默认打包体积 9、【pr合并】修改密码加密方式为bcrypt 10、修复定位bug
1
使用uPIT进行语音分离 使用发声级PIT(置换不变训练)进行语音分离 要求 参见 用法 使用生成数据集 准备cmvn,.scp并在.yaml文件中配置实验 训练: ./run_pit.py --config $conf --num-epoches 100 > $checkpoint /train.log 2>&1 & 推理: ./separate.py --dump-dir cache $mdl_dir/train.yaml $mdl_dir/epoch.40.pkl egs.scp 实验 配置 面具 时代 调频 FF 毫米 FF /毫米 AVG AM-ReLU 75 10.41 6.73 7.35 7.19 8.82 sigmod 50 9.95 5.99 6.72 6.35 8.26 PSM-ReLU 73 10.29 6.54 7.28
2021-12-22 17:16:35 23KB pytorch pit speech-separation Python
1
六度分离 这是我用Java编写的一个程序,用于将六度分离的概念应用到电影行业中。 程序的功能是这样的:用户可以输入两个女演员的名字,程序会分析并绘制一个图表来显示这两个人之间的联系。 也就是说,如果他们出现在同一部电影中,程序就会找到他们所投的电影; 否则,该程序将使用链将他们与与他们一起出演同一部电影的其他女演员联系起来。 我使用的数据来自iMDB开源数据库,可以在这里下载。 ftp://ftp.fu-berlin.de/pub/misc/movies/database/ 运行程序时,记得将数据upzip 并与java 代码放在同一目录中。
2021-12-12 20:34:23 6KB Java
1