英特尔SDE Windows版 http://software.intel.com/en-us/articles/pre-release-license-agreement-for-intel-software-development-emulator-accept-end-user-license-agreement-and-download
2023-02-21 20:42:52 5.65MB AVX
1
DFT的matlab源代码kfr-fft 高度优化的FFT KFR是快速,现代的C ++ DSP框架,DFT / FFT,音频重采样,FIR / IIR滤波,Biquad,矢量函数(SSE,AVX) 特征 FFT针对SSE2,SSE3,SSE4.x,AVXAVX2处理器进行了优化 双精度和单精度 表演 FFT(双精度,大小范围从1024到16777216)有关基准测试过程的详细信息,请参见。 先决条件 macOS:XCode 6.3、6.4、7.x,8.x Windows:MinGW 5.2和Clang 3.7或更高版本 Ubuntu:GCC 5.1和Clang 3.7或更高版本 CoMeta元编程库(已包含) 测验 执行build.py以运行测试或从tests目录手动运行测试 在以下系统上测试: OS X 10.11.4 / AppleClang 7.3.0.7030031 Ubuntu 14.04 / gcc-5(Ubuntu 5.3.0-3ubuntu1〜14.04)5.3.0 20151204 / clang版本3.8.0(tags / RELEASE_380 / final
2023-02-10 09:50:44 281KB 系统开源
1
去 用于golang的AVX(高级矢量扩展)绑定。 Golang代码示例 package main import ( "fmt" avx "github.com/monochromegane/go-avx" ) func main () { dim := 8 x := avx . MmMalloc ( dim ) y := avx . MmMalloc ( dim ) z := avx . MmMalloc ( dim ) defer avx . MmFree ( x ) defer avx . MmFree ( y ) defer avx . MmFree ( z ) for i := 0 ; i < dim ; i ++ { x [ i ] = float32 ( i ) y [ i ] = float32 ( i + 1 ) } avx . Add
2022-11-09 20:41:00 4KB Go
1
实现通过Vector实现的多种加速的矩阵乘法,包括利用intel的AVX指令的实现方法
2022-11-06 18:56:19 3KB 多种C++矩阵乘法算法 avx
1
自己编译的Tensorflow,在 Ubuntu 18.04 环境下编译的,支持 CPU 的 AVX AVX2 FMA 指令,我的 CPU 是 4 代 i5。官方的二进制版 Tensorflow 只支持 CPU 的 AVX 指令,不支持 AVX2 和 FMA;自己编译会遇到各种各样的错误,终于编译成功了,发现在其他机器上安装竟然也能运行,分享给大家。在放置目录下使用 sudo -H pip3 install tensorflow-1.9.0rc0-cp36-cp36m-linux_x86_64.whl 进行安装,请预先安装好 python3 环境,比如这样 sudo apt-get install python3-numpy python3-dev python3-pip python3-wheel 。
2022-05-29 17:18:49 43.8MB Tensorflow AVX AVX2 FMA
1
解决老cpu不能玩帝国时代4的问题
2022-05-17 09:09:04 334KB 综合资源
1
没有AVX指令的老机器可以使用的SSE指令版本的tensorflow2.6
2022-05-15 18:40:45 280.07MB tensorflow SSE指令 无AVX指令 老机器
1
Latte:对流神经网络(CNN)推理引擎 Latte是用C ++编写的卷积神经网络(CNN)推理引擎,并使用AVX对操作进行矢量化。 该引擎可在Windows 10(32位和64位),Linux(内核= 4.12.10,gcc = 7.2.0)和macOS Sierra上运行。 当使用ATLUS构建caffe时,它具有与NVIDIA Caffe相同的精度和相同的推理速度。 该引擎具有自己的网络文件格式(.ahsf文件),因此我们提供了一些python脚本,可将NVIDIA Caffe的文件转换为我们自己的文件。 引擎支持以下层: 输入层。 卷积层。 ReLU。 完全连接的层。 Softmax。 最大池化层。 sigmod。 丹妮 如何使用python脚本: 我们的python脚本是使用Python 2.7.13制作的,需要以下软件包才能正常工作: Pycaffe(在构
1
SIMD 基准测试 测试基本矩阵和向量运算与其 SIMD 对应物的相对性能。 每个操作的时间平均超过 10000 次运行。 使用随机单精度浮点数的 4x4 矩阵或 4D 向量。 对 AVX 128 位 (XMM) 和 256 位 (YMM) 寄存器执行的单独计算。 AVX2/FMA3(128 位)指令集(融合乘加)需要 Intel Haswell CPU 。 所有操作都经过了相当大的优化。 SIMD 矩阵乘法使用线性组合方法。 在带有 Intel i5-4278u 2.6 GHz 双核 Haswell CPU 的 2014 rMBP 上进行测试。 操作系统:在 VMWare Fusion 7 上运行的 Windows 8.1。 使用 MSVC++ 2012 编译: x64 mode 、 /arch:AVX 、 /fp:Fast 通过__rdtsc()在 CPU 时钟周期中计时。 (也可以
2021-12-30 21:26:05 10KB C++
1
使用SIMD的C ++图像处理库:SSE,SSE2,SSE3,SSSE3,SSE4.1,SSE4.2,AVXAVX2,AVX-512,VMX(Altivec)和VSX(Power7),NEON for ARM。 简介Simd库是一个免费的开源图像处理和机器学习库,专为C和C ++程序员设计。 它为图像处理提供了许多有用的高性能算法,例如:像素格式转换,图像缩放和过滤,从图像中提取统计信息,运动检测,对象检测(HAAR和LBP分类器级联)和分类,神经网络。 通过使用不同的SIMD CPU扩展来优化算法。
2021-12-21 10:47:20 4.69MB C/C++ Image Processing
1