Silero VAD Silero VAD:经过培训的企业级语音活动检测器(VAD),数字检测器和语言分类器。 企业级语音产品变得非常简单(请参阅我们的模型)。 当前,除WebRTC语音活动检测器()外,几乎没有任何高质量/现代/免费/公共语音活动检测器。 WebRTC虽然开始显示其年龄,但遭受许多误报。 同样在某些情况下,能够使大型口语语料库匿名(即删除个人数据)也至关重要。 如果个人数据包含(i)名称(ii)某些私人ID,则通常被认为是私人/敏感的。 名称识别是一个非常主观的问题,它取决于语言环境和业务案例,但是语音活动和号码检测是非常常规的任务。 主要特点: 现代,便携; 低内存占用; 优于WebRTC的指标; 在庞大的语音语料库和噪音/声音库上受过训练; 比WebRTC慢,但对于IOT /边缘/移动应用程序足够快; 与WebRTC(大多数情况下会从声音中分辨出静
2022-12-26 14:24:12 19.53MB JupyterNotebook
1
esp32_audio_spectrum 该存储库旨在显示使用adc采样音频数字信号以及经过FFT到频繁域的指南。
2022-12-23 22:46:39 18KB audio spectrum sample esp32
1
这些是经过人工标记的轮胎图像(1000多张轮胎图片),用于图像分割。,并标记了标签。轮胎以YOLO v5 PyTorch格式进行注释。对每个图像进行以下预处理像素数据自动定向(使用exif定向剥离)调整大小为416x416(拉伸)
2022-12-23 15:27:56 15.1MB 轮胎 图像 人工 标记
jquery实现表格隔行换色和鼠标经过提示效果源码
2022-12-17 01:09:37 27KB jquery 表格 隔行换色 提示效果
1
自己写的DDPG怎么都不收敛,库函数很快收敛的学习经过
2022-12-13 13:20:39 415KB DDPG
1
可作图的java蚁群算法,att48最优解拿到10812,经过进一步的调优,有利于加速迭代,快速的拿到最优解,效果直观
1
重要知识点经过批注的AlexNet论文原版
2022-12-06 17:26:35 1.39MB cnn cv
1
基于flash(as2)做的鼠标经过交互效果【附源码】,打开.swf文件即可运行。
2022-11-28 20:24:20 897KB flash 鼠标交互
1
linux 下CAN总线驱动源码,该程序已验经过,成功运在2510上.-linux
2022-11-27 12:02:31 3KB linux
1
linux 下CAN总线驱动源码,该程序已验经过,成功运在2510上.-linux
2022-11-27 12:02:30 3KB linux
1