基于ZYNQ实现了软硬协同的硬件加速器系统,实现对于LeNet-5卷积神经网络识别MNIST手写集的加速。PL端实现卷积层、池化层、全连接层的并行加速,PS端实现验证测试流程的控制。两者通过AXI总线连接,实现控制信识别结果的传递
2023-04-11 20:24:40 58.97MB fpga开发
1
汽车行业是推动人工智能(AI)发展的重要行业之一,这是因为该行业致力于自动驾驶汽车和高级驾驶员辅助系统(ADAS)的泛在利益。汽车正在变得越来越智能,但是如果汽车行业要实现完全自动驾驶的目标,他们还有很长的路要走。尽管业界还在讨论实现全自动化所需的理想技术组合,但是有一点是明确的,那就是人工智能,尤其是神经网络将发挥重要作用。
2023-04-02 10:13:46 28KB GPU 芯片
1
中文翻译:Architecture Design for Highly Flexible and Energy-Efficient Deep Neural Network Accelerators (翻译结果) 这个是我付费翻译的,但是也难免有些许错误。可以先看看摘要的翻译效果。 摘要 深度神经网络(DNNs)是现代人工智能(AI)的支柱。然而,由于其高计算复杂度和多样化的形状和尺寸,能够在广泛的dnn上实现高性能和能源效率的专用加速器对于使AI在现实世界的应用至关重要。为解决这个问题,本文提出Eyeriss,一种用于DNN处理的软硬件架构联合设计,针对性能、能源效率和灵活性进行了优化。Eyeriss具有一种新颖的RowStationary (RS)数据流,可在处理DNN时最小化数据移动,这是性能和能效的瓶颈。RS数据流支持高度并行处理,同时充分利用多级存储层次中的数据重用,以优化任何DNN形状和大小的整体系统能量效率。与现有的其他数据流相比,rs数据流的能量效率提高了1.4到2.5倍。
2022-08-19 16:06:09 13.02MB 神经网络 NPU dnn 人工智能
1
递归神经网络(RNN)近些年来被越来越多地应用在机器学习领域,尤其是在处理序列学习任务中,相比CNN等神经网络性能更为优异。但是RNN及其变体,如LSTM、GRU等全连接网络的计算及存储复杂性较高,导致其推理计算慢,很难被应用在产品中。一方面,传统的计算平台CPU不适合处理RNN的大规模矩阵运算;另一方面,硬件加速平台GPU的共享内存和全局内存使基于GPU的RNN加速器的功耗比较高。FPGA 由于其并行计算及低功耗的特性,近些年来被越来越多地用来做 RNN 加速器的硬件平台。对近些年基于FPGA的RNN加速器进行了研究,将其中用到的数据优化算法及硬件架构设计技术进行了总结介绍,并进一步提出了未来研究的方向。
2022-07-18 14:07:07 1.39MB 递归神经网络 FGPA 加速器
1
基于RISCV64果核处理器的卷积神经网络加速器研究.zip
2022-05-18 21:07:17 18.12MB cnn 综合资源 人工智能 神经网络
基于FPGA的脉冲神经网络加速器设计
2022-03-29 21:28:02 1.2MB 研究论文
1
本IP核由Xilinx HLS高层次综合语言设计,采用Winograd算法降低卷积计算量,支持任意大小为3x3的、步长为1或2的卷积运算。C仿真,C/RTL协同仿真均已通过,并在xc7z020clg400-2开发板上上板通过测试。压缩包内包含HLS工程、以及SDK上板测试的代码
在广泛的领域中,机器学习的任务变得越来越广泛,在一个广泛的系统(从嵌入式系统到数据中心)。同时,一系列的机器学习算法(尤其是卷积和的深度神经网络,即,CNN(无连接节点网络服务)和DNNs(深度神经网络))被证明在许多应用中是最先进的。异构多核架构的进化方向组成的混合内核和加速器,机器学习的加速器可以实现效率的罕见的组合(由于目标算法的小数目),应用范围广。
2022-01-06 11:17:24 8.38MB 神经网络
1
. 概述  得益于大数据的兴起以及算力的快速提升,机器学习技术在近年取得了革命性的发展。在图像分类、语音识别、自然语言处理等机器学习任务中,数据为大小维度确定且排列有序的欧氏(Euclidean)数据。然而,越来越多的现实场景中,数据是以图(Graph)这种复杂的非欧氏数据来表示的。Graph不但包含数据,也包含数据之间的依赖关系,比如社交网络、蛋白质分子结构、电商平台客户数据等等。数据复杂度的提升,对传统的机器学习算法设计以及其实现技术带来了严峻的挑战。在此背景之下,诸多基于Graph的新型机器学习算法—GNN(图神经网络),在学术界和产业界不断的涌现出来。  GNN对算力和存储器的要求非常
1
CNN加速器 卷积神经网络加速器硬件单元 CNN加速器的卷积和池化层算法的详细设计。 该系统适用于灰度图像(每个像素的范围在0到255之间)。 该项目的主要目标是构建加速器模块。
2021-11-23 21:38:48 11.65MB VHDL
1