只为小站
首页
域名查询
文件下载
登录
龙芯 3A 处理器用户手册(上册)
本手册分为两部分 第一部分(第 1 章~第 10 章) 介绍龙芯 3A 多核处理器架构与寄存器描述,对芯片系统架构、主要模块的功能与配置、寄存器列表及位域进行详细说明; 第二部分(第 11 章~第 16 章) 是系统软件
编程指南
, BIOS 和操作系统开发过程中的常见问题进行专题介绍。 关于龙芯 3A 多核芯片所集成的 GS464 高性能处理器核的相关资料,请参阅《龙芯 GS464 处理器核用户手册》。
2022-08-02 15:54:53
2.38MB
龙芯3A
系统软件编程指南
处理器架构与寄存器描述
1
OpenGL
编程指南
(原书第8版)中文高清晰版
OpenGL
编程指南
(原书第8版)中文高清晰版, OpenGL 图形系统是图形硬件的一种软件接口(GL 表示 Graphics Library,即图形库)。它使得用户可以创建交互式的程序以产生运动的 3 维对象的颜色图像。通过 OpenGL,我们可以使用计算机图形学技术来产生逼真的图像,或者通过一些虚构的方式产生虚拟的图像。这本指南将告诉你如何使用 OpenGL 图形系统进行编程,得到你所期望的视觉效果。
2022-07-31 21:58:22
6.34MB
OpenGL、图像
1
西门子S7-1200 和 S7-1500 的
编程指南
和编程风格指南scl 块模板
西门子S7-1200 和 S7-1500 的
编程指南
和编程风格指南scl 块模板
2022-07-30 19:04:24
5KB
西门子1200
1
农行网上支付平台-商户接口
编程指南
-PHP_Edition-V3.1.6.zip
2019年 农行网上支付平台PHP_Edition-V3.1.6。支付接口开发文档,帮助快速搭建。值得参考。
2022-07-29 00:25:26
3.09MB
农行网上支付平台
接口开发
1
CUDA
编程指南
5.0
第一章导论 1 1.1 从图形处理到通用并行计算 1 1.2 CUDATM:一种通用并行计算架构 3 1.3 一种可扩展的编程模型 3 1.4 文档结构 4 第二章编程模型 7 2.1 内核 7 2.2 线程层次 8 2.3 存储器层次 11 2.4 异构编程 11 2.5 计算能力 11 第三章编程接口 15 3.1 用nvcc编译 15 3.1.1 编译流程 16 3.1.1.1 离线编译 16 3.1.1.2 即时编译 16 3.1.2 二进制兼容性 17 3.1.3 PTX兼容性 17 3.1.4 应用兼容性 18 3.1.5 C/C++兼容性 19 3.1.6 64位兼容性 19 3.2 CUDA C运行时 3.2.1 初始化 20 3.2.2 设备存储器 20 3.2.3 共享存储器 24 3.2.4 分页锁定主机存储器 32 3.2.4.1 可分享存储器(portable memory) 34 3.2.4.2 写结合存储器 34 3.2.4.3 被映射存储器 34 3.2.5 异步并发执行 35 3.2.5.1 主机和设备间异步执行 35 3.2.5.2 数据传输和内核执行重叠 36 3.2.5.3 并发内核执行 36 3.2.5.4 并发数据传输 36 3.2.5.5 流 37 3.2.5.6 事件 41 3.2.5.7 同步调用 42 3.2.6 多设备系统 42 3.2.6.1 枚举设备 42 3.2.6.2 设备指定 42 3.2.6.3 流和事件行为 43 3.2.6.4 p2p存储器访问 44 3.2.6.5 p2p存储器复制 45 3.2.6.6 统一虚拟地址空间 45 3.2.6.7 错误检查 46 3.2.7 调用栈 47 3.2.8 纹理和表面存储器 47 3.2.8.1 纹理存储器 47 3.2.8.2 表面存储器(surface) 60 3.2.8.3 CUDA 数组 65 目录iii 3.2.8.4 读写一致性 66 3.2.9 图形学互操作性 66 3.2.9.1 OpenGL互操作性 67 3.2.9.2 Direct3D互操作性 70 3.2.9.3 SLI(速力)互操作性 82 3.3 版本和兼容性 82 3.4 计算模式 83 3.5 模式切换 84 3.6 Windows上的Tesla计算集群模式 85 第四章硬件实现 87 4.1 SIMT 架构 87 4.2 硬件多线程 88 第五章性能指南 91 5.1 总体性能优化策略 91 5.2 最大化利用率 91 5.2.1 应用层次 91 5.2.2 设备层次 92 5.2.3 多处理器层次 92 5.3 最大化存储器吞吐量 94 5.3.1 主机和设备的数据传输 95 5.3.2 设备存储器访问 96 5.3.2.1 全局存储器 96 5.3.2.2 本地存储器 98 5.3.2.3 共享存储器 99 5.3.2.4 常量存储器 100 5.3.2.5 纹理和表面存储器 100 5.4 最大化指令吞吐量 100 iv CUDA
编程指南
5.0中文版 5.4.1 算术指令 101 5.4.2 控制流指令 104 5.4.3 同步指令 105 附录A 支持CUDA的GPU 107 附录B C语言扩展 109 B.1 函数类型限定符 109 B.1.1 device 109 B.1.2 global 109 B.1.3 host 109 B.1.4 noinline 和forceinline 110 B.2 变量类型限定符 110 B.2.1 device 111 B.2.2 constant 111 B.2.3 shared 112 B.2.4 restrict 113 B.3 内置变量类型 115 B.3.1 char1、uchar1、char2、uchar2、char3、uchar3、char4、 uchar4、short1、ushort1、short2、ushort2、short3、ushort3、 short4、ushort4、int1、uint1、int2、uint2、int3、uint3、 int4、uint4、long1、ulong1、long2、ulong2、long3、ulong3、 long4、ulong4、float1、float2、float3、float4、double2 115 B.3.2 dim3类型 115 B.4 内置变量 115 B.4.1 gridDim 115 B.4.2 blockIdx 115 B.4.3 blockDim 117 B.4.4 threadIdx 117 B.4.5 warpSize 117 目录v B.5 存储器栅栏函数 117 B.6 同步函数 119 B.7 数学函数 120 B.8 纹理函数 120 B.8.1 纹理对象函数 120 B.8.1.1 tex1Dfetch() 120 B.8.1.2 tex1D() 121 B.8.1.3 tex2D() 121 B.8.1.4 tex3D() 121 B.8.1.5 tex1DLayered() 121 B.8.1.6 tex2DLayered() 122 B.8.1.7 texCubemap() 122 B.8.1.8 texCubemapLayered() 122 B.8.1.9 tex2Dgather() 123 B.8.2 纹理参考函数 123 B.8.2.1 tex1Dfetch() 123 B.8.2.2 tex1D() 124 B.8.2.3 tex2D() 124 B.8.2.4 tex3D() 125 B.8.2.5 tex1DLayered() 125 B.8.2.6 tex2DLayered() 125 B.8.2.7 texCubemap() 125 B.8.2.8 texCubemapLayered() 126 B.8.2.9 tex2Dgather() 126 B.9 表面函数(surface) 126 B.9.1 表面对象函数 127 B.9.1.1 surf1Dread() 127 B.9.1.2 surf1Dwrite() 127 vi CUDA
编程指南
5.0中文版 B.9.1.3 surf2Dread() 127 B.9.1.4 surf2Dwrite() 128 B.9.1.5 surf3Dread() 128 B.9.1.6 surf3Dwrite() 128 B.9.1.7 surf1DLayeredread() 129 B.9.1.8 surf1DLayeredwrite() 129 B.9.1.9 surf2DLayeredread() 129 B.9.1.10 surf2DLayeredwrite() 130 B.9.1.11 surfCubemapread() 130 B.9.1.12 surfCubemapwrite() 131 B.9.1.13 surfCubemapLayeredread() 131 B.9.1.14 surfCubemapLayeredwrite() 131 B.9.2 表面引用API 132 B.9.2.1 surf1Dread() 132 B.9.2.2 surf1Dwrite() 132 B.9.2.3 surf2Dread() 132 B.9.2.4 surf2Dwrite() 133 B.9.2.5 surf3Dread() 133 B.9.2.6 surf3Dwrite() 133 B.9.2.7 surf1DLayeredread() 134 B.9.2.8 surf1DLayeredwrite() 134 B.9.2.9 surf2DLayeredread() 135 B.9.2.10 surf2DLayeredwrite() 135 B.9.2.11 surfCubemapread() 135 B.9.2.12 surfCubemapwrite() 136 B.9.2.13 surfCubemapLayeredread() 136 B.9.2.14 surfCubemapLayeredwrite() 137 B.10 时间函数 137 目录vii B.11 原子函数 137 B.11.1 数学函数 138 B.11.1.1 atomicAdd() 138 B.11.1.2 atomicSub() 139 B.11.1.3 atomicExch() 139 B.11.1.4 atomicMin() 140 B.11.1.5 atomicMax() 140 B.11.1.6 atomicInc() 140 B.11.1.7 atomicDec() 141 B.11.1.8 atomicCAS() 141 B.11.2 位逻辑函数 141 B.11.2.1 atomicAnd() 141 B.11.2.2 atomicOr() 142 B.11.2.3 atomicXor() 142 B.12 束表决(warp vote)函数 142 B.13 束洗牌函数 143 B.13.1 概览 143 B.13.2 在束内广播一个值 144 B.13.3 计算8个线程的前缀和 145 B.13.4 束内求和 146 B.14 取样计数器函数 146 B.15 断言 147 B.16 格式化输出 148 B.16.1 格式化符号 149 B.16.2 限制 149 B.16.3 相关的主机端API 150 B.16.4 例程 151 B.17 动态全局存储器分配 152 viii CUDA
编程指南
5.0中文版 B.17.1 堆存储器分配 153 B.17.2 与设备存储器API的互操作 154 B.17.3 例程 154 B.17.3.1 每个线程的分配 154 B.17.3.2 每个线程块的分配 155 B.17.3.3 在内核启动之间持久的分配 156 B.18 执行配置 159 B.19 启动绑定 160 B.20 #pragma unroll 162 B.21 SIMD 视频指令 163 附录C 数学函数 165 C.1 标准函数 165 C.1.1 单精度浮点函数 165 C.1.2 双精度浮点函数 168 C.2 内置函数 171 C.2.1 单精度浮点函数 172 C.2.2 双精度浮点函数 172 附录D C++语言支持 175 D.1 代码例子 175 D.1.1 数据类 175 D.1.2 派生类 176 D.1.3 类模板 177 D.1.4 函数模板 178 D.1.5 函子类 178 D.2 限制 180 D.2.1 预处理符号 180 D.2.2 限定符 180 目录ix D.2.2.1 设备存储器限定符 180 D.2.2.2 Volatile限定符 182 D.2.3 指针 182 D.2.4 运算符 183 D.2.4.1 赋值运算符 183 D.2.4.2 地址运算符 183 D.2.5 函数 183 D.2.5.1 编译器生成的函数 183 D.2.5.2 函数参数 184 D.2.5.3 函数内静态变量 184 D.2.5.4 函数指针 184 D.2.5.5 函数递归 185 D.2.6 类 185 D.2.6.1 数据成员 185 D.2.6.2 函数成员 185 D.2.6.3 虚函数 185 D.2.6.4 虚基类 185 D.2.6.5 Windows相关 185 D.2.7 模板 186 附录E 纹理获取 187 E.1 最近点取样 187 E.2 线性滤波 187 E.3 查找表 189 附录F 计算能力 191 F.1 特性和技术规范 191 F.2 浮点标准 195 F.3 计算能力1.x 198 x CUDA
编程指南
5.0中文版 F.3.1 架构 198 F.3.2 全局存储器 199 F.3.2.1 计算能力1.0和1.1的设备 199 F.3.2.2 计算能力1.2和1.3的设备 199 F.3.3 共享存储器 201 F.3.3.1 32位步长访问 201 F.3.3.2 32位广播访问 202 F.3.3.3 8位和16位访问 205 F.3.3.4 大于32位访问 205 F.4 计算能力2.x 206 F.4.1 架构 206 F.4.2 全局存储器 208 F.4.3 共享存储器 209 F.4.3.1 32位步长访问 209 F.4.3.2 大于32位访问 210 F.4.4 常量存储器 211 F.5 计算能力3.x 211 F.5.1 架构 211 F.5.2 全局存储器访问 212 F.5.3 共享存储器 213 F.5.3.1 64位模式 213 F.5.3.2 32位模式 213 附录G 驱动API 215 G.1 上下文 218 G.2 模块 219 G.3 内核执行 220 G.4 运行时API和驱动API的互操作性 222 G.5 注意 223
2022-07-27 17:18:59
1.21MB
cuda
1
CUDA并行程序设计 GPU
编程指南
-中文英文高清完整版(各500+页)
CUDA并行程序设计 GPU
编程指南
-中文英文高清完整版(各500+页)
2022-07-15 18:05:51
130.54MB
gpu
1
linux环境
编程指南
包含音视频编程
2022-07-12 16:00:38
12.11MB
linux
1
Agilent信号源
编程指南
_仪器指南、编程_
安捷伦信号源
编程指南
,包含C语言和C++
2022-07-11 18:14:57
2.37MB
仪器指南、编程
1
WebGL
编程指南
pdf版本
包含webgl
编程指南
pdf版本,还有教材中实例的源码(windows和mac版本),还有cuon-matrix.js,cuon-utils.js,webgl-debug.js,webgl-utils.js供大家下载使用!
2022-07-11 15:04:27
62.39MB
webgl
1
高质量的C++
编程指南
林锐
高质量C++ C
编程指南
,林锐编著,非常经典的书籍,指出了如何写出质量高的C++代码,对C++中容易出错的知识点做了详细的实例说明。
2022-07-04 23:17:00
543KB
高质量,
C++
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
Matpower中文使用手册(原名《MATPOWER手册(中文版)》).rar
CPLEX12.8学术版安装包:cplex_studio128.win-x86-64.exe
cublas64_11.dll cublasLt64_11.dll cusolver64_11.dll
基于傅里叶算子的手势识别的完整源代码(Python实现,包含样本库)
Alternative A2DP Driver 1.0.5.1 无限制版
华为结构与材料工程师-知识点总结【by詹姆斯申易登】.pdf
商用密码应用与安全性评估——霍炜.pdf
基于S函数的BP神经网络PID控制器及Simulink仿真和对应代码模型.zip
IBM.ILOG.CPLEX.Enterprise.Server.v12.10.0.Win64.rar CPLEX下载
多智能体的编队控制程序的补充(之前上传少了一个文件)
全国道路网SHP数据.zip
2020年数学建模B题(国二)论文.pdf
凯斯西储大学(CWRU)轴承数据集(含数据包+整理Python程序+使用说明)
基于Python网络爬虫毕业论文.doc
超大规模集成电路先进光刻理论与应用.pdf
最新下载
FreeSql.Tools:FreeSql 工具包,包括生成器等
经典课程教材-遥感导论.pdf
横河AQ7932 OTDR仿真分析软件中文版.zip
KEPServerEx V4.0破解版及安装教程
star nx-600打印机驱动 官方最新版
海思Hi3716/Hi3796/Hi3798芯片系列SDK版本明细参考表
POSTMAN最后一个免登陆版本
精通开关电源设计(第2版)
ISO IEC 9797-1
罗云彬的编程乐园 罗云彬
其他资源
代码本色(英文版)配套程序
STM8S003 EEROM读写
labview跑马灯
2018同义词库自己整理的总共19744组,绝不虚报,TXT格式,火车头完美使用
中国电力出版社杨欢红电路答案
C语言实战——基于51单片机的RFID射频卡的读写程序
图书馆管理系统JSP+Servlet+JavaBean+MySQL
汽车租赁管理系统毕业设计
Trimble Scan Explorer Extension Setup 1.3.1.194.part2.rar
教材管理系统教材管理系统
java 实习生简历模板
ue4 电梯蓝图
系统约定:用UML描述工作流管理
navicat for mysql 数据库管理工具
正交编码器代码例程(stm32).zip
WeBase 快速部署教程
资料管理系统(这是完整版包括数据库文件)
POI生成Excel POI操作Excel POI读取Excel POI类库
三角钥匙_QQ临时会话神器V2.0
Chrome导入导出cookie
2018最新网吧无盘方案
两轮平衡车源程序,方能仪器,自平衡小车