主要介绍了学习在kernel态下使用NEON对算法进行加速的方法,一起来学习下,大大提高数据运算的效率。
2023-04-11 09:55:50 1.33MB kernel NEON 算法 加速
1
ICP算法加速优化--多线程和GPU 已成功编译配置: Windows10下环境配置:cmake3.23.3+VS2019+CUDA11.1+PCL1.12.1 Ubuntu20.04(WSL)下环境配置:基于docker镜像cuda11.1-gcc,cmake3.16.3+PCL1.10.0
2022-12-02 09:33:42 1.39MB icp算法 openmp cuda
1
这是一个仅适用于hi3519和hi3516的经过加速处理的图像跟踪库,采用的opencv,但是opencv是重新修改和软加速过的,在hi3519上可以达到20fps的跟踪速率,3516上可以达到14fps。
2022-11-07 17:32:43 11.83MB 目标跟踪 海思3519 嵌入式算法加速
1
OPencl入门学习简单例子,完整包含了opencl编程的步骤,可供参看学习。。一个完整的OpenCL加速技术过程涉及到平台(Platform)、设备(Device)、上下文(Context)、OpenCL程序(Program)、指令队列(Command)、核函数(Kernel)、内存对象(Memory Object)、调用设备接口(NDRange),下面将分别进行做简单的介绍,后面也会给出参考资料的相关链接。
2022-05-27 21:49:35 922KB 算法加速 OpenCL加速 并行加速
1
本程序应用SVM为基础,核函数采用高斯核函数,数据为手写数字数据1和9,用smo加速算法,识别正确率达99.4%,而且我博客有讲解
2022-03-31 16:39:18 21KB SVM 支持向量机 高斯核函数 smo
1
在传统GS算法的基础上,根据角谱传播理论并引入一简单的梯度,提出一种快速、高精度相位恢复迭代算法--加速角谱迭代法。该算法使用三个面(即一个输入面和两个输出面)的强度信息恢复输入面光场的相位分布。数值模拟结果表明,该算法能在二维情况下快速准确地恢复各种输入面光场的相位分布,并且大幅度地提高了复杂光场的相位恢复精度。在模拟实验中多次选取随机初始迭代值,该算法的收敛结果唯一,表明算法有良好的收敛性能。
2021-12-06 23:31:22 1.72MB 光计算 相位恢复 迭代算法 加速角谱
1
基于GPU图形加速卡,编程实现多线程同步加速,适用于各类图像重建算法,尤其是迭代类计算量比较大的算法。ART,SIRT,SART 等。
2021-11-15 16:07:24 18.27MB ART SIRT 2D 3D
1
关于实现Halcon算法加速的基础知识 详情:https://blog.csdn.net/libaineu2004/article/details/104202063
2021-10-18 20:39:28 20KB halcon gpu 加速 并行
1
基于GPU的LLE算法加速及性能优化.pdf
2021-09-25 19:03:25 1.79MB GPU 处理器 数据处理 参考文献
摘要:时域有限差分法(FDTD)求解电磁学中麦克斯韦方程组是科学与工程计算中一个非常重要的算法。通过对FDTD 求解麦克斯韦旋度方程的直接时间域的分析,给出其基于多个GPU 组成异构机群系统上的并行加速算法,用OpenCL、CUDA 和MPI 编程模型实现了并行程序。在目前的主流NVIDIA 和ATI 的GPU 平台上,加速的并行FDTD 程序相对CPU 串行程序和8 个CPU 核的MPI 并行程序,分别获得了超过8 倍和1.5 倍的加速,并在多个GPU 卡上获得了接近线性加速的扩展性能。   引言   Maxwell 方程组用数学模型揭示了自然界一切宏观电磁现象所遵循的普遍规律,一百多年
1