华为Codelab边缘服务器市场尚属于新兴市场,加入战场的公司并不多,目前仅有Nvidia,华为,比特大陆等, 而且不同的公司可以主打不同的细分市场,因此市场竞争远未饱和。
近日,华为和比特大陆纷纷发布了针对边缘计算的新芯片产品。华为的Ascend系列采用达芬奇架构,其中Ascend 310功耗8W算力8TOPS正是针对边缘计算市场。而之后比特大陆发布的BM1682和BM1880也是针对边缘计算市场,其中BM1682功耗30W算力3TFlops针对边缘服务器市场,而BM1880功耗3W整数算力2TOPS则是针对边缘终端市场。人工智能结合边缘计算已经成为最热门的市场之一,我们今天就来分析并展望这个市场。
人工智能芯片市场第一个得到关注的是云端服务器市场,Nvidia的GPU以其强劲的算力掌握了大部分市场。随着人工智能的铺开,边缘计算(edge computing)的概念也得到了越来越多的认可。
边缘计算相对于云计算有几点优势,首先是延迟较小,在云端和终端通常有几十毫秒到几百毫秒不等的网络延迟,对于工业应用等对延迟有高要求的应用来说云端部署人工智能无法满足其对于延迟的需求;其次是数据隐私,有些应用不希望把数据传输到云端,一方面担心云端数据被云运营商看到,另一方面担心数据传输过程中被黑客劫持;最后是可靠性,如果把人工智能部署在云端那么一旦网络断了在终端的人工智能程序就无法工作了,这对于要求高可靠性的应用来说难以满足要求,但是如果把人工智能部署在边缘就没有这个问题。
边缘人工智能计算中其实还包含了多个层次,一种是终端设备(如手机)上的人工智能计算,这样的规划把人工智能计算直接放到终端设备上,可以实现最低的延迟。然而,由于终端设备的电池容量有限或者对于散热容忍度较低,因此在终端设备上做人工智能计算对于AI芯片的能效比提出了极高的要求,同时这样也并非唯一的边缘计算形态。
除了终端设备上的直接做计算之外,还可以把终端的数据放到离终端比较近的本地服务器去计算。例如,对于工业应用这样的对于稳定性和延迟有要求但是又可以做集群化计算的应用,除了把计算直接放到终端设备之外另一种方法就是就近设立边缘服务器让计算放到边缘服务器上去做然后快速返回给终端设备。边缘服务器对于芯片功耗的要求相比在终端设备上直接计算就会宽松许多,因此非常适合于这种可以集群化计算的应用。
边缘计算的两种市场目前都已经在起飞。而相关AI芯片也得到了许多关注。标志性事件是华为的两次芯片发布会。去年秋天发布的麒麟970芯片附带NPU,可以说是人工智能部署在手机的一次重要尝试。今年秋天又发布了Ascend系列芯片,其中Ascend 310芯片也是针对边缘服务器市场并且华为已经开发了基于Ascend 310的边缘计算服务器准备部署在自动驾驶领域。因此我们可以预计在未来无论是相关应用还是相关芯片都将有更多公司大手笔投入,从而推动AI进一步发展。
边缘服务器的市场现在来看将是人工智能最早落地的应用之一,因为目前中国的智能摄像头产品已经在安防、人脸识别等领域真正落地,而边缘服务器是很适合智能摄像头的产品形态,一方面在不少此类应用中对于可靠性有很强的需求,因此部署在边缘端的人工智能更适合;另一方面智能摄像头的计算可以集群化操作,因此一个边缘服务器处理多路智能摄像头的形式是非常经济的方式。除了智能摄像头之外,无人驾驶也是边缘服务器的一个例子,因为在无人车里面需要做传感器融合做大量计算,相当于在无人车上部署了一个边缘服务器。
边缘服务器市场通常对于通用性有一定需求,因此比较合适的方案是处理器加上通用型深度学习加速芯片,而深度学习加速芯片最常见的形式是以PCIe加速卡的形式插到主板上,并与主处理器协同工作。值得注意的是,由于边缘服务器对于人工智能算法精度有一定要求,因此往往使用的是类似半精度浮点数的运算方式,很多边缘终端芯片上常见的INT-4甚至INT-2等激进的低精度整数运算由于损失精度过多因此在边缘服务器不太适合。
边缘服务器市场尚属于新兴市场,加入战场的公司并不多,目前仅有Nvidia,华为,比特大陆等, 而且不同的公司可以主打不同的细分市场,因此市场竞争远未饱和。我们不妨来分析一下Nvidia,华为和比特大陆三家公司的竞争格局。Nvidia的产品是Xavier芯片,峰值算力30TOPS,功耗30W,主要针对的是自动驾驶市场,因此芯片上还集成了双目视觉、光流等,模组售价2499美元,显然是针对高端自动驾驶市场,而对于智能摄像头等对于部署成本有要求的场合并不合适。
边缘终端市场是指直接在终端设备上做计算的AI芯片,对于功耗和能效比有很强的要求。目前来看,边缘终端市场有两种形态的芯片产品,一种是针对特定应用的SoC,一种是通用加速器做独立芯片。SoC面向专用市场,在芯片中深度学习加速计算事实上只是一小部分,而其他大部分芯片面积则交给了主控处理器、视频解码等等模块。SoC集成度高,一般的技术路线是用新的SoC代替原有的不支持深度学习加速的SoC做更新换代。
一个典型的例子就是华为麒麟系列SoC加入寒武纪的NPU,就属于SoC自己的更新换代。专注于AI芯片的厂商进入SoC市场的策略往往是提供IP授权,以发挥自己的强项(如寒武纪给华为提供NPU IP)。对于SoC往往针对的是一个特定市场,因为其中的模块都是针对该应用而设计,如果用在其他应用中则显得浪费,例如麒麟SoC最适合的场景是手机,其中包含的GPU、ISP、Modem等都是为了手机场景打造,如果是用在工业场景则这些模组都闲置了,因此也就引出了另一个终端通用型深度学习加速器芯片市场。该市场相对于SoC市场来说允许较低的集成度,即可以在主控芯片之外再搭配额外的芯片以支持相应功能。
在终端SoC市场,事实上竞争已经白热化,华为、高通等公司都纷纷推出专属的SoC搭载 AI加速模组,而AI加速模组IP的提供商也有ARM,Cadence,CEVA等传统IP提供商以及寒武纪这样的初创公司。不少传统SoC芯片公司都纷纷在自家SoC中加入自研或授权的人工智能模块。对于人工智能终端SoC市场,我们的分析是该市场虽然最早得到关注但是很可能近几年还是被原来的SoC公司占领市场,因为目前终端人工智能市场尚未真正落地收获真金白银,因此SoC中加入人工智能还只是锦上添花之举。
在IP授权方面,Cadence和ARM入局意味着小公司面临巨大压力,因为IP市场存在一定的头部效应,且Cadence和ARM可以通过与其他的优势IP做捆绑销售来推销其人工智能IP,在人工智能并非最关键SoC模组的市场现状下,小公司想要与Cadence和ARM等巨头竞争只能走差异化,例如超低功耗或模拟计算等路线。
终端通用深度学习加速器芯片市场的应用则刚起步,之前Movidius推出的神经计算加速棒并未引起巨大反响。但是这并不代表这个市场不存在,而是还处于幼年期,需要培养,因此许多公司在这个市场布局主要一是培养开发者生态,另一方面也探索研究哪个市场最有潜力,预计在市场成熟之后再收缩战线,针对几个重要的应用推出相应的优化芯片,从而占领最合适的市场。因此,目前对于这个市场最合适的策略是推出开发板和插件式加速硬件(如USB加速