您好,欢迎光临!   请登录 免费注册    
  您的位置:电子变压器资讯网 > 资讯中心 >  综合领域 > 正文
将人工智能作为终极目标,华为的 AI 实力究竟如何?
[发布时间]:2019年9月9日 [来源]:半导体行业观察 [点击率]:9256
【导读】: 最近,华为发布了end 910 AI处理器和相应的Mind Spore AI框架,成为华为在人工智能领域又一次重要的发布。  end 910性能分析  这次end 910的主要目标是在云端应用,以...

  最近,华为发布了Ascend 910 AI处理器和相应的Mind Spore AI框架,成为华为在人工智能领域又一次重要的发布。

  Ascend 910性能分析
  这次Ascend 910的主要目标是在云端应用,以训练为主。常规的AI芯片主打推理,而相对而言针对训练的AI芯片技术门槛更高。首先,训练AI芯片的算力需求和芯片规模常常要远大于推理芯片,因为在训练中需要处理的数据量会远大于推理,而规模更大的芯片则在工程上提出了更高的挑战,在内存访问、散热等方面都需要仔细设计。例如,目前主流的训练芯片都会使用HBM等基于3D/2.5D封装的内存接口以实现超高速内存访问,而这就大大提高了设计门槛。
  其次,AI训练芯片对于规模化(scalability)的要求非常高。在AI训练应用中,分布式训练是一个必选项,例如训练模型时常常会使用分布在8台服务器上的64块训练加速芯片。如何在硬件上支持多卡多机训练,保证训练性能随着使用加速芯片数量接近线性增长也是一项非常具有挑战的工作,这需要加速芯片能支持高速数据接口,这也是Nvidia提出NVLink(用于单机多卡)以及收购Mellanox(用于多机)的原因。
  在性能方面,我们看到Ascend能实现256 TFLOPS的FP-16算力,或512 TOPS的INT8算力,而功耗是310W。目前,训练主要使用FP-16实现,而512 TOPS的INT-8算力目前预计主要针对的是低精度推理,或许在未来随着低精度训练技术的发展也能支持一些模型的训练。256TFLOPS的峰值FP-16算力从目前来看大约是Nvidia V100 (120TFLOPS)的两倍,而目前公布的训练实测结果(单机Ascend 910训练ResNet50大约是Nvidia V100的两倍)也与该数字相符。相比其他AI芯片初创公司,Habana的Gaudi芯片训练ResNet的性能是Nvidia V100的3.8倍,相对而言和Ascend 910在同一数量级上。此外,Google的TPU v3根据公布的数据训练性能和Nvidia V100基本相当,因此可以说Ascend 910的单机训练性能站在了世界的领先水平。
  不过,目前的数据并未展示Ascend的分布式训练性能,而该性能将会成为实际使用中最重要的性能。随着芯片测试进程,我们预计华为会在合适的时间公布这个数字,让我们拭目以待。

  Ascend 910+MindSpore软硬件协同设计
  除了Ascend 910之外,华为还在同一个发布会上着重介绍了其机器学习框架MindSpore。事实上,自研机器学习芯片加上机器学习框架将是华为在机器学习领域的一个重要投资。
  即使单纯从性能的角度考虑,MindSpore和Ascend 910的搭配预期也将能实现非常显著的提升。从单机性能来看,机器学习框架和机器学习芯片协同设计的优势在于可以实现最优的硬件调度和算子性能优化。目前主流的卷积神经网络的主要算子是卷积运算,因此如何将该算子映射到硬件上高效执行将是实现高性能的关键。
  随着深度学习发展日新月异,新的算子层出不穷,而这就需要机器学习框架和芯片能给予有力的支持。除了算子之外,运算调度也是一个重要的方面。如何实现计算和内存访问的延迟匹配以减少内存访问对于计算性能的影响,以及如何确保片上内存数据的复用最大化将极大地影响性能。两者相结合,就是如何支持多种训练的数据流,包括前馈神经网络,循环神经网络等等。目前GPU对于循环神经网络的支持就不够高效,因此如何将机器学习框架和芯片协同设计以支持多种数据流是实现高性能的必经之路。
  从分布式计算来看,MindSpore也是非常重要的性能保证。分布式计算是一个系统工程,在工程上有众多挑战,例如如何保证不同机器之间的负载分布合理,如何结合硬件设计保证高效训练同步等等都是需要一个强而有力的机器学习框架。
  之前由于机器学习框架设计和硬件设计是分开的,因此往往做的是软件设计协同芯片设计,即首先设计较为抽象的机器学习框架,之后再根据当前最新的硬件模型去做相关的代码优化以保证能较为高效地运行在硬件上。一些较为底层的软件,例如TVM,也能实现算子和调度的优化。然而,这样的做法并未将硬件设计带入到反馈环中,它做的只是软件迁就硬件。这样的主要缺点在于:
  (1)软件设计对于硬件的未来路线图缺乏把握,因此软件框架如果在一开始设计的思想和假设和硬件发展的未来路线图不符就会造成性能下降。
  (2)硬件在设计时没有足够关于软件框架方面的考虑,由于对于软件和应用的把握不足,往往只能选择用性能换通用性。而华为这次选择把软件(MindSpore)和硬件(Ascend系列芯片)做协同芯片可以使用软硬件协同设计的方法来挖掘系统的整体性能,并且保证在未来的发展路线图上不会出现两者路线图相背离,从而确保长期的性能领先。

[上一页] [1] [2] [下一页]

投稿箱:
   电子变压器、电感器、磁性材料等磁电元件相关的行业、企业新闻稿件需要发表,或进行资讯合作,欢迎联系本网编辑部QQ: , 邮箱:info%ett-cn.com (%替换成@)。
第一时间获取电子变压器行业资讯,请在微信公众账号中搜索“电子变压器资讯”或者“dzbyqzx”,或用手机扫描左方二维码,即可获得电子变压器资讯网每日精华内容推送和最优搜索体验,并参与活动!
温馨提示:回复“1”获取最新资讯。