GPU Gems 3 中文版
2024-09-18 10:06:37 58.72MB graphics gpu
1
GPU Gems 3 中文版
2024-09-18 10:02:02 75MB graphics gpu
1
针对三维天空场景仿真中出现的场景实时性和真实性不能满足用户的需求等问题,提出了基于GPU (graphic processing unit)的动态天空场景仿真方法.在开源场景图形系统(OpenSceneGraph)开发平台上,使用基于物理的方法计算出一天中不同时刻天空的背景色;采用shader技术,用OpenGL着色语言(GLSL)在GPU上对云、太阳进行模拟;针对太阳的位置,绘制出具有真实感效果的光晕.实验结果表明,该仿真方法可以绘制出具有动态效果的、天空颜色能平滑过渡的天空场景,并且真实感强.
2024-09-15 23:44:35 439KB 图形处理器;
1
标题 "onnxruntime-gpu-1.16.0-cp38-cp38-linux-aarch64" 指的是 ONNX Runtime 的 GPU 版本,版本号为 1.16.0,针对 Python 3.8 的运行环境,并且是专为 Linux 平台上的 ARM64 架构(AARCH64)设计的。ONNX Runtime 是一个高性能的推理引擎,它支持 ONNX(Open Neural Network Exchange)模型格式,用于跨框架执行深度学习模型的预测。 描述中提到,“onnxruntine-gpu 整个编译 Build 目录”,意味着这个压缩包包含了编译构建 ONNX Runtime GPU 版本的所有源代码和构建产物。用户可以使用 C++ 进行 `sudo make install` 命令来安装此库。这通常涉及到下载源码、配置构建环境、编译源代码以及最后将库安装到系统路径中,以便应用程序可以找到并使用它。 关于标签 "linux",这表明该软件是为 Linux 操作系统设计的。Linux 是一种广泛使用的开源操作系统,其稳定性、灵活性和性能使其成为服务器和高性能计算的首选平台。 "C++" 标签提示我们,ONNX Runtime 的 GPU 实现部分使用了 C++ 编程语言,这是一种底层、高效的语言,适合开发这种对性能要求极高的库。同时,C++ 也允许开发者更深入地控制硬件资源,如 GPU,以实现最佳的推理速度。 在压缩包内的 "build" 文件夹,通常包含以下内容: 1. 编译后的库文件(如 .so 或 .a 文件),这些是动态或静态链接库,可供其他程序调用。 2. 头文件(.h 或 .hpp),包含了库的接口定义,供开发者在编写应用时引用。 3. 可执行文件,可能是编译后的测试程序或示例。 4. 配置脚本,用于设置构建环境和编译选项。 5. Makefile 或 CMakeLists.txt,是构建系统的配置文件,指导编译过程。 为了在 Linux 系统上安装 ONNX Runtime GPU 版本,你需要按照以下步骤操作: 1. 确保系统满足依赖项:如 CUDA 和 cuDNN(如果未提供的话),以及其他依赖库如 Protobuf 和 Eigen。 2. 解压下载的压缩包,进入 build 目录。 3. 使用 CMake 配置构建(可能需要指定 CUDA 和 cuDNN 的路径)。 4. 执行 `make` 命令进行编译。 5. 使用 `sudo make install` 安装编译好的库到系统目录。 安装完成后,你可以通过编写 C++ 或 Python 代码,利用 ONNX Runtime 提供的 API 来加载和执行 ONNX 模型,利用 GPU 加速推理过程。这将极大地提升深度学习模型在预测阶段的效率。在实际应用中,ONNX Runtime 可以用于各种场景,如服务器端的在线推理、嵌入式设备的本地推理等。
2024-09-10 10:31:33 407.19MB linux
1
详细对比了国产HG(海光)、Cambricon(寒武纪)、Iluvatar(天数智芯)、Enflame(燧原)、MOORE(摩尔线程)、BIREN(壁仞科技) 、KUNLUNXIN(昆仑芯) 、Vastaitech(瀚博半导体)、Denglin(登临科技)、MetaX(沐曦)序列GPU的详细技术参数,包括如下参数: 芯片核心 架构 CUDA core数量 Tensor core数量 RT core数量 核心频率 显存规格 数据接口 算力性能 编解码能力 MIG TDP功耗 显示接口 供电 散热方式 外形尺寸 vGPU支持 应用场景
2024-08-23 14:55:18 23KB 技术规格
1
如何重头通过conda安装tensorflo-2.10-GPU版本,配置环境
2024-08-14 09:50:51 4KB
1
用opencv改写的GIMP的颜色增强,Opencv2.4.13Gpu+Cuda8.0.文章参考:http://blog.csdn.net/hyqwmxsh/article/details/77980709。 opencv2.4.13Gpu版:http://blog.csdn.net/hyqwmxsh/article/details/75228886
2024-07-30 13:21:08 3KB 颜色增强
1
傅里叶反变换matlab代码Python中的非均匀快速傅立叶变换 该库为Python提供了更高性能的CPU / GPU NUFFT。 该库最初是Jeff Fessler和他的学生所编写的Matlab NUFFT代码的移植端口,但是已经进行了全面的改进,并添加了GPU支持。 该库未实现所有NUFFT变体,仅实现了以下两种情况: 1.)从均匀的空间网格到非均匀采样的频域的转换。 2.)从非均匀傅立叶样本到均匀间隔的空间网格的逆变换。 那些对其他NUFFT类型感兴趣的人可能想考虑通过进行非官方python包装的。 转换以单精度和双精度变体实现。 基于低内存查找表的实现和完全预先计算的基于稀疏矩阵的实现都可用。 请参阅和以获取完整的许可证信息。 相关软件 软件包中提供了另一个具有CPU和GPU支持的基于Python的实现。 NUFFT的Sigpy实现非常紧凑,因为它用于从通用代码库为CPU和GPU变体提供及时的编译。 相反, mrrt.nufft将预编译的C代码用于CPU变体,并且GPU内核在运行时使用NVIDIA提供的NVIDIA运行时编译(NVRTC)进行编译。 该工具实现了更广泛的一组非
2024-07-24 10:31:18 114KB 系统开源
1
《GPS信号FFT捕获的GPU实现》这篇论文探讨了如何利用GPU加速GPS信号的FFT捕获过程,以缩短接收机的冷启动时间。在GPS定位系统中,信号捕获是关键步骤,它涉及到码分多址(CDMA)技术下的伪随机码相位和载波多普勒频移的搜索。FFT(快速傅里叶变换)捕获算法因其并行计算能力,能够快速搜索多个码相位,从而提高捕获速度。 文中首先介绍了FFT捕获的基本原理,即通过本地复现的码信号和载波信号与输入信号进行相关运算,找到卫星信号的码相位和多普勒频移。此过程是一个二维搜索,需要在大量可能的码相位和频率中寻找匹配。FFT算法在此过程中可以同时处理多个码相位,极大地提高了计算效率。 接着,论文对比了GPU和FPGA(现场可编程门阵列)的特点。尽管FPGA常用于并行处理,但GPU在并行计算方面表现出色,尤其在神经网络、模糊系统等领域有广泛应用。文献中提到,基于GPU的一个通道内各频点的捕获可以并行进行,相比于CPU,捕获时间大幅缩短。 论文提出了一种新的并行捕获方案,不仅在每个通道内部进行并行处理,还在各个通道之间也实现了并行化,这将捕获速度进一步提升。通过实测的GPS中频数据验证,该方案的捕获结果与基于CPU的方案相比,精度相同但时间缩短了约1/60,显著提升了捕获效率。 在实现GPU并行捕获的过程中,文章还对GPU与FPGA进行了应用比较分析,尽管两者都能进行并行计算,但GPU在通用计算任务上的优势更加明显。因此,GPU成为了实现快速FFT捕获的理想选择。 这篇论文提供了一个利用GPU优化GPS信号FFT捕获的高效方案,对于缩短GPS接收机冷启动时间具有重要意义,特别是在需要快速定位的应用场景下,这种技术的应用价值尤为突出。通过并行计算的优化,未来GPS系统的性能有望得到进一步提升。
2024-07-03 16:34:31 308KB GPS 定位系统 系统开发 参考文献
NVIDIA TensorRT 是一款用于高性能深度学习推理的 SDK,包含深度学习推理优化器和运行时,可为推理应用程序提供低延迟和高吞吐量。YOLOv10是清华大学研究人员近期提出的一种实时目标检测方法,通过消除NMS、优化模型架构和引入创新模块等策略,在保持高精度的同时显著降低了计算开销,为实时目标检测领域带来了新的突破。 该代码将演示如何使用NVIDIA TensorRT C++ API 部署YOLOv10目标检测模型,实现模型推理加速。经过测试,推理可以实现2ms所有,全流程包含前后处理仅有15ms左右。 此处提供了项目源码以及模型文件。
2024-06-06 15:21:53 24.38MB
1