1.本文展示了一个基于开源OpenCL的卷积神经网络的现场可编程门阵列加速器。提出了一种高效的流水线内核硬件结构。还讨论了吞吐量和内存带宽优化方案。实现的设计在多个现场可编程门阵列平台上显示了可扩展的性能和成本。(Cyclone-
V SEA5 SoC, Stratix-V GXA7 and Arria-10 AX115这三个平台)
2.PipeCNN由一组OpenCL内核组成,这些内核通过使用Altera的OpenCL扩展通道进行级联。
3.这种体系结构具有以下优点:1)级联内核形成一个深度流水线,可以执行一系列基本的CNN操作,而不需要将层间数据存储回外部存储器。它极大地缓解了对内存带宽的需求,而内存带宽对于嵌入式FPGAs至关重要。2)我们使用单个硬件内核来实现卷积层和光纤通道层,这进一步提高了硬件资源利用的效率。
4.卷积时将三位卷积通过使用一种HLS友好的一维卷积结构来实现,该结构将三维卷积平坦化。编译器生成具有延迟缓冲器的乘法器-加法器树。OpenCL编译器可以有效地流水线化所提出的结构,初始间隔只有一个时钟周期。每个卷积流水线构成一个计算单元,内核由多个计算单元组成,执行并行卷积。
运算结果:
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- nryq.cn 版权所有 赣ICP备2024042798号-6
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务