EdgeBoard多并发高性能通用CNN架构剖析

2020-03-27 13:19

2．3 卷积计算加速单元的设计思路

作为CNN网络中比重最大、最为核心的卷积计算加速单元，是CNN软核性能加速的关键，也占用了FPGA芯片的大部分算力分配和逻辑资源消耗。下面将针对EdgeBoard卷积计算加速单元的设计思路进行简要介绍，此章节也是理解CNN软核算力弹性配置的技术基础。

每一层网络的卷积运算，有M个输入图片（称之为feature map，对应着一个输入通道），N个输出feature map（N个输出通道），M个输入会分别进行卷积运算然后求和，获得一幅输出map。那么需要的卷积核数量就是M＊N。

针对上述计算特点，EdgeBoard的卷积单元采用脉动阵列的数据流动结构，将数据在PE之间通过寄存器进行打拍操作，可以实现在第二个PE计算结果出来的同时完成和前一个PE的求和。这样可以使数据在运算单元的阵列中进行流动，减少访存的次数，并且结构更加规整，布线更加统一，提高系统工作频率，避免了采用加法树等并行结构所造成的高扇出问题。

因此，如上图所示，我们可以分别从Feature Map和Kernel两个维度去定义脉动阵列的并行结构。从Feature Map的角度，纵向的行与行直接卷积窗口相互独立，也就是输出的每行之间所对应的数据计算互不干扰，在此维度定义的多并发计算称之为Window维度的并行度。从Kernel的角度，为了达到计算结果的快速流出减少片上缓存占用，我们设计了每个Kernel核之间的多并发计算，称之为Kernel维度的并行度。以上两个维度同时并发既可以提高整体并行计算效率，也充分利用了脉动阵列的数据流水特性。

2．4 卷积计算加速单元的通用性扩展

前一章节详细介绍了基于PL实现的卷积计算加速单元的设计原理，那么如果是由于芯片的SRAM存储资源不够而导致的CNN网络参数支持范围较小，EdgeBoard将如何拓展CNN软核的网络支持通用性？我们可以利用灵活的SDK调度管理单元提前将Feature Map或者Kernel数据进行拆分，然后再执行算子任务的下发。

一条滑窗链的Feature Map数据不够存储

SDK可以将一条滑窗链的Feature Map数据分成B块，并将分块数B和每个块的数据量告诉卷积计算加速单元，那么后者则可以分批依次从DDR读取B次Feature Map数据，每次的数据量是可以存入到Image SRAM内。

Kernel的总体数据不够存储

SDK可以将Kernel的数量分割成S份，使得分割后的每份Kernel数量可以下发到PL侧的Filter SRAM中，然后SDK分别调度S次卷积算子执行操作，所有的数据返回DDR后，再从通道（Channel）维度做这S次计算结果的数据拼接（Concat）即可。不过要注意的是，我们的Filter SRAM虽然不需存储所有Kernel的数据量，但至少要保证能够存储一个Kernel的数据量。

由此看来，即使EdgeBoard三兄弟中最小的FZ3拥有极其有限的片上存储资源，也是能够很好地完成大多数CNN网络的参数适配。