EdgeBoard多并发高性能通用CNN架构剖析

2020-03-27 13:19

人工智能领域边缘侧的应用场景多种多样，在功能、性能、功耗、成本等方面存在差异化的需求，因此一款优秀的人工智能边缘计算平台，应当具备灵活快速适配全场景的能力，能够在安防、医疗、教育、零售等多维度行业应用中实现快速部署。

百度大脑EdgeBoard嵌入式AI解决方案，以其丰富的硬件产品矩阵、自研的多并发高性能通用CNN（Convolution Neural Network）设计架构、灵活多样的软核算力配置，搭配移动端轻量级Paddle Lite高效预测框架，通过百度自定义的MODA （Model Driven Architecture）工具链，依据各应用场景定制化的模型和算法特点，向用户提供高性价比的软硬一体的解决方案，同时和百度大脑模型开发平台（AIStudio、EasyDL）深度打通，实现模型的训练、部署、推理等一站式服务。

1． EdgeBoard计算平台的多产品矩阵

EdgeBoard是基于Xilinx 16nm工艺Zynq UltraScale＋ MPSoC的嵌入式AI解决方案，采用Xilinx异构多核平台将四核ARM Cortex－A53处理器和FPGA可编程逻辑集成在一颗芯片上，高性能计算板卡上搭载了丰富的外部接口和设备，具有开发板、边缘计算盒、抓拍机、小型服务器、定制化解决方案等表现形态。

EdgeBoard计算卡产品可以分为FZ9、FZ5、FZ3三个系列，是基于Xilinx XCZU9EG、XAZU5EV、XAZU3EG研发而来，分别具有高性能，视频硬解码，低成本等特点，同时还有不同的DDR容量版本。以上三个版本PS侧同样采用四核Cortex－A53 、双核Cortex－R5、以及GPU Mali－400MP2等处理器配置，PS到PL的接口均为12x32／64／128b AXI Ports，主要的区别在于PL侧拥有的芯片逻辑资源大小不同，可参见下表。

采用上述三种标准产品的硬件板卡或者一致的硬件参考设计，用户可无缝适配运行EdgeBoard公开发布的最新版标准镜像，也可根据自身项目需求定制相关的硬件设计，并进一步根据性能、成本和功耗要求，以及其他功能模块的集成需求，对软核的算力和资源进行个性化配置。

2．高性能的通用CNN设计架构

2．1 CNN加速软核的整体设计框架

EdgeBoard的CNN加速软核（整体的加速方案称之为软核）提供了一套计算资源和性能优化的AI软件栈，由上至下分别包括应用层软件API、计算加速单元的SDK调度管理、Paddle Lite预测框架基础管理器、Linux操作系统、负责设备管理和内存分配的驱动层和CNN算子的专用硬件加速单元，用来完成卷积神经网络模型的加载、解析、优化和执行等功能。

这些主要组成部分在软件栈中功能和作用相互依赖，承载着数据流、计算流和控制流。基于上图设计框架，EdgeBoard的AI软件栈主要分为4个层次：

应用使能层

面向用户的应用级（APP）封装，主要是面向计算机视觉领域提供图像处理和神经网络推理的业务执行API。

执行框架层

Paddle Lite预测框架提供了神经网络的执行能力，支持模型的加载、卸载、解析和推理计算执行。

调度使能层

SDK调度使能单元负责给硬件派发算子层面的任务，完成算子相应任务的调度、管理和分发后，具体计算任务的执行由计算资源层启动。

计算资源层

专用计算加速单元搭配操作系统和驱动，作为CNN软核的计算资源层，主要承载着部分CNN算子的高密度矩阵计算，可以看作是Edgeboard的硬件算力基础。

2．2 CNN算子的加速分类

专用计算加速单元基于FPGA的可编程逻辑资源开发实现，采用ARM CPU和FPGA共享内存的方式，通过高带宽DMA（Direct Memory Access）实现二者数据的高速交互，共享内存也并作为异构计算平台各算子数据在CPU和FPGA协同处理的桥梁，减少了数据在CPU与FPGA之间的重复传输。此外，CNN算子功能模块可直接发起DDR读写操作，充分发挥了FPGA的实时响应特性，减少了CPU中断等待的时间消耗。

根据CNN算子的计算特点，EdgeBoard的算子加速单元可划分为如下两类：

复杂算子加速单元

顾名思义，是指矩阵计算规则较为复杂，处理数据量较多，由于片上存储资源限制，通常需要多次读写DDR并进行分批处理的算子加速单元。

（1）卷积（Convolution）：包含常规卷积、空洞卷积、分组卷积、转置卷积，此外全连接（Full Connection）也可通过调用卷积算子实现。

（2）池化（Pooling）：包含Max和Average两种池化方式。

（3）深度分离卷积（Depth－wise Convolution）：与Pooling的处理特点类似，因此复用同样的硬件加速单元，提高资源利用率。

（4）矩阵元素点操作（Element－wise OP）：可转换为特定参数的Pooling操作，因此复用同样的硬件加速单元，提高资源利用率。

（5）归一化函数（L2－Normalize）：拥有较高处理精度，且实现资源最优设计。

（6）复杂激活函数（Softmax）：与Normalize处理特点相似，复用同样的硬件加速单元和处理流程，提高资源利用率。

通路算子加速单元

通路算子是指在复杂算子加速单元的计算数据写回DDR的流水路径上实现的算子，适合一些无需专门存储中间结果，可快速计算并流出数据的简单算子。

（1）各类简单激活函数（Relu， Relu6， Leaky－Relu， Sigmoid， Tanh）：基本涵盖了CNN网络中常见的激活函数类型。

（2）归一化（Batch norm／Scale）：通常用于卷积算子后的流水处理，也可支持跟随在其他算子后的流水处理。

另外一种分类方式，是根据CNN网络里的算子常用程度划分为必配算子和选配算子，前者指CNN软核必需的算子单元，通常对应大部分网络都涉及的算子，或者是芯片资源消耗极少的算子；后者指CNN软核可以选择性配置的算子单元，通常是特定的网络会有的特定算子。这样划分的好处是，用户根据MODA工具链自定义选择，减少了模型中无用算子造成的逻辑资源的开销和和功耗的增加。

必配算子：Convolution， Pooling， Element－Wise， Depth－Wise Convolution， BN／Scale， Relu， Relu6

选配算子：Normalize， Softmax， Leaky－Relu， Sigmoid， Tanh

1 2 3 下一页>