中国与美国的贸易战正在从传统商品贸易战走向科研之战!而且这次可能会是史无前例的刺激中国企业投入巨资进行科技研发工作!
今天下午,阿里巴巴正式对外公布正研发一款人工智能芯片——Ali-NPU。
该芯片将运用于图像视频分析、机器学习等AI推理计算。按照设计,该芯片的性价比将是目前同类产品的40倍。阿里巴巴表示,该芯片成熟后将通过阿里云提供公共服务。
巧合的是,日前,美国商务部宣布,今后7年内,将禁止该国企业向中国电信设备制造商中兴通讯出售任何电子技术或通讯元件。
此外美国也通过华尔街日报,对外传递出将对阿里云进行控制,避免阿里云在北美市场的扩大,目前阿里云已经是全球第三大云计算企业。
阿里巴巴在此时公布自研人工智能芯片显示出其决心,就是和中国企业一起做强芯片研发工作。
据介绍,阿里巴巴自研AI芯片旨在解决图像、视频识别、云计算等商业场景的AI推理运算问题,提升运算效率、降低成本。
据阿里巴巴达摩院研究员骄旸介绍,Ali-NPU,基于阿里机器智能技术实验室等团队在AI领域积累的大量算法模型优势,根据AI算法模型设计微结构以及指令集,以最小成本实现最大量的AI 模型算法运算。
按照设计,阿里巴巴的Ali-NPU性能,将是目前市面上主流CPU、GPU架构AI芯片的10倍,而制造成本和功耗仅为一半,性价比超过40倍。未来,Ali-NPU的能力,不仅可以更好地满足视频、图像处理需求,还可以通过阿里云进行计算能力的输出,赋能各行各业。
阿里巴巴自研的NPU到底有多厉害?
芯片有很多类,目前在深度学习或人工智能领域的芯片包括CPU、GPU、DSP、NPU,简单说下各自的区别。
CPU、GPU:用轿车运货
打一个比方,用众核芯片和GPU跑深度学习,就类似于用轿车去拉货,受轿车自身特点的限制,货物运输能力与真正大马力、高负载的货车有一定差距。同理,即便是因为技术相对更加成熟,Intel和英伟达的芯片在集成度和制造工艺上具有优势,但由于CPU、GPU并非针对深度学习的专业芯片,相对于专业芯片,其运行效率必然受到一定影响。
DSP:和真正神经网络芯片有差距
6月20日,中星微“数字多媒体芯片技术”国家重点实验室在京宣布,中国首款嵌入式NPU(神经网络处理器)芯片诞生,目前已应用于全球首款嵌入式视频处理芯片“星光智能一号”。
不过,在经过仔细分析后,所谓“中国首款嵌入式神经网络处理器”很有可能是一款可以运行神经网络的DSP,而非真正意义的神经网络专用芯片。
星光智能一号其实是DSP,而非NPU,能够适用于卷积神经网路(CNN),而对循环神经网络(RNN)和长短期记忆网络(LSTM)等处理语音和自然语言的网络有可能就无能为力了。
换言之,星光智能一号暂时只面向机器视觉任务,而不能用于语音和自然语言类的问题。其实,这种用传统SIMD/DSP架构来适配神经网络的技术思想在国际上已有不少先例,甚至有成熟的产品,例如CEVA公司的XM4处理器、Cadence公司的Tensilica Vision P5处理器、Synopsys公司的EV处理器等。
NPU:为深度学习而生的专业芯片
从技术角度看,深度学习实际上是一类多层大规模人工神经网络。它模仿生物神经网络而构建,由若干人工神经元结点互联而成。神经元之间通过突触两两连接,突触记录了神经元间联系的权值强弱。
由于深度学习的基本操作是神经元和突触的处理,而传统的处理器指令集(包括x86和ARM等)是为了进行通用计算发展起来的,其基本操作为算术操作(加减乘除)和逻辑操作(与或非),往往需要数百甚至上千条指令才能完成一个神经元的处理,深度学习的处理效率不高。因此谷歌甚至需要使用上万个x86 CPU核运行7天来训练一个识别猫脸的深度学习神经网络。因此,传统的处理器(包括x86和ARM芯片等)用于深度学习的处理效率不高,这时就必须另辟蹊径——突破经典的冯·诺伊曼结构。
以中国的寒武纪为例,DianNaoYu指令直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。
用数字来说话,CPU、GPU与NPU相比,会有百倍以上的性能或能耗比差距——以寒武纪团队过去和Inria联合发表的DianNao论文为例——DianNao为单核处理器,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02平方毫米mm。
在若干代表性神经网络上的实验结果表明——
转载说明:欢迎转载本站所有文章,如需转载请注明来源于《疯狂的美工装修助手网站》。
本文链接:https://www.mgzxzs.com/tbtmxw/2327.html