AI急需变革？比起英特尔的焦虑，互联网企业更想蹚这一池芯片水

2019-02-27 09:36

不可不知的“鼻祖”

在这组互联网梯队中，谷歌是第一位吃螃蟹的“人”，同时它用这个秘密武器助力AlphaGo战胜李世石，引起轰动。而这里的秘密武器就是谷歌TPU（张量处理单元）。

图｜谷歌TPU

其实2017年，当谷歌重磅推出TPU时，很多人都好奇作为一家成功的互联网公司，谷歌怎么突然有兴趣做起了芯片，还做出了这样一款“脑洞大开”的芯片？

在后来的公开论文中，谷歌提到其实自己的软件服务背后需要庞大的服务器网络在支持，即需要难以计数的硬件服务器日夜运行。提供的数据显示，为了支持各类大量的数据应用，谷歌当时已经在全球四个洲建有15个仓库般大小的数据中心。

但是随着深度学习算法的出现，令谷歌自己惊奇的事情发生了。在后来计算机架构专家David Patterson和Norm Jouppi合著的论文中，他们提到这样一个细节：六年前，谷歌开始为安卓操作系统添加语音识别功能之后，原来相对充裕的计算能力突然间捉襟见肘，根据当时谷歌工程师的推算——如果世界上每一台安卓手机每天都使用3分钟的语音搜索功能，且识别率百分之百正确，即一次搜索成功，那么谷歌的数据中心的规模就起码要翻倍。

这样的解释，与Facebook后提到的境况几近相同。

意识到这样的问题，谷歌为这样的大规模扩张需求而背后生寒，更何况当时还只是深度学习算法应用刚刚开始的阶段。因此在慎重考虑了语音识别技术的迅速发展和推理运算需求的激增等情况之后，谷歌决定开发专属推理芯片以替代性能不足的CPU，即后来的TPU。

不过当时外界只知谷歌街景、AlphaGo等应用中用到了TPU，对于“蒙上一层面纱”的TPU到底为何物，众说纷纭。后来直到看见谷歌公开发表的TPU论文并眼见AlphaGo的成功，众人才意识到谷歌TPU划时代的意义。

寒武纪陈天石毫不吝啬得用了“浓墨重彩”一词盛赞其对于整个产业发展的意义；而英伟达黄仁勋也不惜亲自撰写长文来回应谷歌TPU与自己产品的对比，虽然言语之中难掩对英伟达技术的偏袒，但也只有势均力敌的对手值得“老黄”如此重视。

后来Jouppi在一篇论文中这样评价这款芯片，“这并不意味着TPU有多复杂，它看起来更像雷达的信号处理引擎，而不是标准X86架构。而且它与浮点单元协处理器更为神似，跟GPU倒不太一样。”

所谓创新，大概如此。

一股清流，从通用出发去做专用芯片

目前主导推动推理芯片市场的以互联网公司居多，除了领头的谷歌，还有Facebook、亚马逊等，不可忽视的还有以硬件结构创新为出发点、骨骼清奇的寒武纪和寻求新增长力的英伟达。

不过，其中Facebook最有意思。

从他们在公共场合的表态来看，和谷歌、亚马逊所处之境一样，面对不可控的成本上涨，Facebook不是不着急。但不同于其他四家的芯片设计方向，即依据应用需求调试算法，随后依次开发设计硬件，Facebook选择耐着性子去做一款通用的深度学习专用芯片。按照Facebook的意思，虽然是深度学习专用芯片，但是也不可顺着应用需求过于专一，因此它的做法也是非常独特。

图｜ Facebook Glow平台

这始于Facebook早早为自己搭建好的一款名为Facebook Glow的深度学习通用处理器。提到这款平台，Facebook称其可用于处理云端的各种深度学习加速，但又不同于TensorFlow等开源工具，它不是针对用户设计的。

Taylor解释说：“推理加速器的市场必将表现为硬件碎片化，但我们的Glow主要是帮助深度学习专家设计神经网络而不是让大家用它来开发算法，以调试到去适应各类硬件推理加速器。我们知道碎片化时代正在到来，因为没人知道怎样把硬件资源组合起来最优，所以我们会让开发者专注在上层的网络图上而不是让他们为‘硬件’敲代码。”

在软件加速器上树立好绝对的标准，而后基于此来设计芯片，Facebook的造芯计划可谓宏图。

其实对于Facebook研发芯片这件事，业内人多用“奇葩”来形容。依据精准的上层架构来反向“强行”设计出底层具有通用性的AI芯片，很难评价其做法是否过于执拗和宏大，只能暗叹它的不走寻常路，因此对于CES2019上Intel宣布的这款与Facebook联手的芯片，还是值得期待一下。

终端市场缘何如此重要？

不难发现，上文提到的在推理芯片市场引起轩然大波的芯片产品都可归为一类：服务器芯片，即终端市场。

从技术角度来看，其实不仅仅是终端市场对推理芯片有着强需求，随着智能应用需求的深入，手机等移动端亦有此需求，如华为麒麟平台中用到的NPU芯片正是一款专用于解决神经网络推理计算的芯片。

但是不同于端侧市场的现有产品饱和与增长力不足，因云计算快速的深入，服务器的计算任务需求呈爆发式增长，因而对硬件架构提升的需求格外迫切。

图｜数据中心

亚马逊James Hamilton曾结合亚马逊所遇到的问题给出这样的分析：一直以来，虽然专用芯片可以成十倍改善延迟、降低成本和功耗，但是通用芯片的地位却是不可撼动的，这里面有其原因。以传统服务来说，一般情况下每个用户只会用到几个固定的服务器，即我们的服务器是按照用户分配的，这样的情况下专用芯片通常是没什么用的。但是云改变了一切，在一个完备的云系统中，比较“罕见”的工作负载甚至需要连接进入数千甚至数万个服务器里，同时运行以完成任务。这在过去是完全不可能实现的，因为以前即便能够很好的分配任务给专用硬件，也不能节约成本，尤其是当一些紧急状况出现时。

云的出现打通了硬件之间的“壁垒”，也极大程度的发挥了深度学习算法的威力，但它同时很快耗尽了众多公司现有服务器芯片的计算能力。

IDC曾做过数据统计，2018年第二季度全球服务器市场的厂商收入同比增长43．7％达到225亿美元，该季度全球服务器出货量同比增长20．5％达到290万台。而其中最大的增长力就表现在云计算服务器上。