矩阵乘法 使用 Verilog 设计 4 x 4 矩阵乘法 该设计已通过以下数据验证 设计文件可以在 /src 下找到 可以在 /tb 下找到测试平台 请注意,所有输入数据均应使用8位符号进行签名,而输出数据应使用11位符号进行签名。 输出以有符号十进制监控。 执照 有关许可权利和限制 (Apache 2.0),请参阅文件。
2021-10-19 15:59:29 28KB Verilog
1
十个利用矩阵乘法解决的经典题目 十个利用矩阵乘法解决的经典题目 十个利用矩阵乘法解决的经典题目
1
利用分治法求解矩阵乘法,可以使复杂度降低
2021-10-08 17:43:34 3KB 矩阵乘法 分治法 C语言
1
分别使用FFT和矩阵乘法实现线性卷积,并在CPU和GPU两种情况下比较运行时间。
2021-09-30 16:22:29 2KB 卷积
1
该程序是基于C语言,利用CUDA实现的多核处理矩阵乘法,利用多核,可大大提高执行的速度。
2021-09-28 15:17:24 2.47MB CUDA 矩阵乘法
1
基于向量扩展多核处理器的矩阵乘法算法优化研究.pdf
2021-09-26 09:04:11 916KB 处理器 微型机器 数据处理 参考文献
面向GPU的通用矩阵乘法计算的容错研究.pdf
2021-09-25 19:03:35 4.12MB GPU 处理器 数据处理 参考文献
FPGA上的可扩展矩阵矩阵乘法 该存储库包括用于Xilinx FPGA的矩阵矩阵乘法(A * B = C)的纯Vivado HLS实现,使用Xilinx Vitis / SDx / SDAccel实例化内存和PCIe控制器并与主机接口。 在上进行的实验实现了一半,单精度和双精度的462 GFLOP / s,301 GFLOP / s和132 GFLOP / s,其中跨越三个SLR的路由是主要瓶颈,阻止了进一步扩展。 该代码不是特定于设备的,可以为Xilinx OpenCL运行时支持的任何Xilinx FPGA进行配置。 内核也已验证可在TUL KU115和Alveo U250板上执行,结果相似。 该实现使用脉动阵列方法,其中线性连接的处理元素计算对输出矩阵图块的外部乘积的不同贡献。 在 [1]中介绍了用于实现该内核的方法。 有关我们应用的优化技术的一般说明,请参阅有关的文章[2]。
2021-09-16 09:28:32 46KB fpga hls high-level-synthesis vivado-hls
1
Pyfhel:PY马拉松F或H omomorphicËncryption大号ibraries。 版本:[ v2.3.1 ] 状态:稳定 描述:允许在整数的整数|向量上进行加,减,乘,标乘积。 该库充当最高级的C ++ HE库的优化Python API。 语言:C ++ 17之上的Python(3.5+)和Cython。 操作系统:Windows(在MSVC2017 , MSVC2019和gcc6 for WSL上进行了测试)和Linux(在gcc6进行了测试)。 不支持MacOS。 :warning: 必需:Python必须已经用C ++ 17编译: g++>=6 | MSVC 2017+ :warning: Docs :目前,仅记录了API []。 实例被大量评论。 依赖关系:有两种可能的后端(均与Pyfhel一起提供),C ++中的HE库: (默认无外部依赖项)。 (无外部依赖项) WI
2021-09-09 12:20:19 999KB python cython seal encrypted-data
1
主要描述了对于大规模的矩阵运算在CUDA平台上的实现原理
2021-09-04 22:29:02 79KB CUDA 矩阵乘法 并行
1