e-works数字化企业网  »  新闻  »  业界动态  »  正文

算力战争的序曲:巨头纷纷染指AI芯片

2018年2月19日              
关键字:AI芯片  人工智能  

  算力战争的序曲:巨头纷纷染指AI芯片

  摘要: 当科技公司纷纷布局自家AI芯片之时,主战场上的NVIDIA和谷歌开启了算力大战的序幕。

  随着人工智能革新浪潮与技术进程的推进,AI芯片成了该领域下一阶段的竞争核心。美国工程院院士、谷歌人工智能项目带头人Jeff Dean连发10条推文向外界宣布Cloud TPU测试版正式开放,这意味着谷歌第二代TPU从内部项目迈向外部开发者、企业、专有领域走出关键一步。而不久前,外媒消息证实亚马逊已经开始设计制造AI芯片,为Alexa语音助手的质量提升以及Echo智能音响设备提供更强大的竞争能力。

  而苹果、三星、华为在智能手机处理器上集成深度学习引擎的激烈酣战,于CES2018已然为大众所领略。另一方面,ARM、NVIDIA在正面谷歌TPU崛起时,也不断加速现行GPU的改进以及下一代芯片架构规划。

  主战场在NVIDIA和谷歌之间

  随着CPU摩尔定律的终止,传统处理器现行算力已远远不能满足海量并行计算与浮点运算的深度学习训练需求,而在人工智能领域反应出强大适应性的GPU成为标配。

  NVIDIA毫无疑问是这波人工智能浪潮目前为止最大的受益者。NVIDIA股价从2016年初的32.25美元上涨至2018年初的245.8美元,两年间其市值飙升近8倍,并迅速获得可以媲美旧时代的处理器王者英特尔的体量。NVIDIA的崛起完全得益于这场突如其来的业界人工智能大革新,尽管其一再宣称仍将把游戏玩家放在第一位,但是前者带来的GPU销量增长以及投资者溢价预期的影响是不可否置的。

  然而在不久前,谷歌宣布对第二代TPU的全面开放让NVIDIA警觉的神经再次紧绷。可以认为,谷歌是NVIDIA在人工智能算力市场最大的竞争对手。早在去年4月谷歌公布第一代TPU之时,其细节认为TPU在高速并行浮点运算相比GPU要快15至30倍,而NVIDIA CEO黄仁勋当场表示怀疑,并立马抛出市场上最好的GPU计算卡与TPU的性能对比图以示反驳。

  而随着第二代TPU的发布以及其在人工智能专有领域、特别是在搭载了谷歌TensorFlow框架的深度神经网络训练效率方面的表现,外界越来越认识到二者间的差距逐渐明晰。就在第二代TPU的进一步进化——Cloud TPU开放测试之时,该装置通过TensorFlow编程模型提供的算力已达180tflops之巨,谷歌宣称一个Cloud TPU能在24小时内对ResNet-50模型训练达到75%的精度。而180tflops的浮点操作也达到了超级计算机的算力级别。

  谷歌在人工智能领域的野心十分明显,从一开始对TPU的只字不谈到后来开放上云,谷歌已逐渐认识到算力市场的巨大潜力并渴求牢牢抓住这一契机。谷歌的人工智能生态系统在过去两年间为自家旗下产品包括智能语音与搜索图像识别、谷歌翻译以及其他万维网应用的表现上提供了算力优势,TPU+TensorFlow+云训练的模式让谷歌获得了迄今为止其他科技巨头尚不具备的人工智能核心竞争实力。这一点已经引起其他科技公司的注意,他们认为,各行各业的公司都有自己的数据驱动业务,算力不应该被掌控在一家巨头手上。

  AI芯片崛起的背后是算力的战争

  摩尔定律的终止已成为业界共识,那么AI芯片的革命又从何说起?众所周知,当前的人工智能技术进程是奠定在人工神经网络与深度学习之上的,从人工智能发展史来看,经历了早期的控制论和简单神经网络、逻辑过程与编程革命、运筹学与博弈论、“简约”与“芜杂”学派的争论、专家系统的兴起,人工智能技术进程在算法与算力的不断迭代中演化至今。而当前神经网络算法趋于稳固,在算法框架没有深刻变化的前提下,算力就成了唯一的更新焦点。

  深度学习工程的两大关键环节training(训练)和inference(推测)需要大量的算力支撑,而GPU在训练环节扮演着不可或缺的角色。但随着人工智能应用场景的延伸,GPU并非所有深度学习计算任务的充分条件,FPGA(现场可编程门阵列)和ASIC(专有化集成电路)同样有着相当大的表现空间。前者通过内置可灵活组合的逻辑、IO、连线模块为专用计算服务,后者是不可配置的高度定制化芯片。谷歌TPU就是ASIC的一种方案。

  调研机构Deloitte预测,2018年基于深度学习的全球GPU市场需求大约在50万块左右,FPGA和ASIC需求则分别是20万块和10万块左右。相比GPU集群,FPGA因其定制化、低功耗和忽略延迟的特点,在终端推测环节有着广泛应用,所以它为微软、亚马逊、阿里等云商以及苹果、三星、华为等手机制造商广为接受。而GPU与TPU作为训练环节的主力,则开启了两种不同产品形态争锋对立的局面,也就是说,在深度学习训练领域,完全成了NVIDIA和谷歌两者之间的战争。

  谷歌的优势在于凭借自身TPU+ TensorFlow+云的资源禀赋吸引开发者和拓展企业级市场、专有领域,但该模式的前提必须是谷歌极力维系TensorFlow作为深度学习主流框架而长期存在,一旦神经网络算法主流架构有变,TPU作为高度制定化的芯片产物,其单位成本之高恐酿成不可回避的风险。相反,倘若谷歌的计划顺利实施,其垄断的生态优势同样对NVIDIA形成巨大威胁。

  AI芯片战争已经全面打响,由人工智能进程引发的第二次芯片革命已经让业界嗅到了熟悉的工业革命的气息。正如19世纪蒸汽机、内燃机的迭代结束了大洋之上纵横数个世纪的风帆时代,人工智能算力的突破亦将成为摩尔定律的变革者,将延续了近一个世纪的计算机科学文明引入下一阶段。

  【钛媒体作者介绍:文/水哥,高级工程师,科技专栏作者,中国计算机学会会员】

责任编辑:王聪
e-works
官方微信
掌上
信息化
编辑推荐
文章推荐
博客推荐
视频推荐