Quantcast
Channel: 英特尔开发人员专区文章
Viewing all articles
Browse latest Browse all 583

Nervana 引擎为深度学习带来了难以置信的速度!

$
0
0

NERVANA 已经加入 英特尔

原始文章发表于 Nervana 网站: Nervana 引擎为深度学习带来了难以置信的速度 .

请访问  Nervana 主页了解关于 英特尔 Nervana 深度学习技术的更多信息。

目前,Nervana 正在开发 Nervana 引擎,一种针对深度学习定制和优化的特定应用集成电路 (ASIC)。

训练深度神经网络涉及大量计算密集型操作,包括张量的矩阵乘法 和卷积。由于图形处理单元 (GPU) 最初专为电子游戏而设计,在电子游戏中,屏幕上对象的移动受矢量和线性代数的控制,因此,相比 CPU,GPU 更适合上述操作。GPU 成为了面向深度学习的可靠计算平台。但是,由于数值精度、控制逻辑、高速缓存和其他 GPU 架构元素均面向电子游戏而非深度学习优化,GPU 仍存在较大的改进空间。

Nervana 生产出了全球最快的面向深度学习的 GPU 内核,它比其他制造商更了解这些限制,也知道如何高效解决这些问题。设计 Nervana 引擎时,我们摒弃了 GPU 模式,重新开始。我们分析了最常见的深度神经网络,确定了实施关键操作的最佳架构。我们甚至分析并优化了核心数值格式,创建了 FlexPoint™,后者实现了最高的精度,只占用 16 位以内的存储,实现了高内存带宽和算法性能的完美结合。我们又添加了充足的灵活性,以确保架构满足未来的需求。Nervana 引擎仅包含深度学习所需的全部组件,它的强大性能将确保 Nervana 深度学习平台依然是全球速度最快的平台。所以,您现在准备好体验光速般的深度学习了吗?!

高带宽内存实现了超快速的数据访问

训练深度神经网络需要传输大量的数据,目前的内存技术无法满足这样的要求。在训练过程中访问了训练数据并更新了模型参数。DDR4 SDRAM 存储容量较高,但是带宽有限。GDDR5 SDRAM 速度更快,但是内存容量有限。Nervana 引擎采用了全新的内存技术 - 高带宽内存 (HBM),兼具大容量和高速的两大优势。HBM 为 Nervana 引擎带来了 32GB 的封装存储和超快速的 8 TB/秒内存访问带宽。

Nervana 引擎的 HBM 内存通过芯片堆叠实现了高容量。由于 HBM 芯片由 8 个单独的 1 GB 内存芯片堆叠而成,因此,单个 HBM 芯片可以存储高达 8GB 的数据。Nervana 引擎包含了 4 个 HBM 堆栈,提供了 32GB 的封装存储。HBM 的高速(带宽)主要借助 2.5D 制程(一种新的制程工艺)实现的。该制程工艺极大缩小了内存芯片底部的引脚间距,因此能够容纳更多的数据通道。2.5D 制程显著提高了 Nervana 引擎的内存访问速度。性能提升的同时,占用了很小的芯片空间,为新计算电路预留更大的空间,使电路能够充分利用提升后的内存容量和带宽。

前所未有的计算能力

Nervana 引擎设计只包括与深度学习相关的内存和计算元素。例如,Nervana 引擎不包括管理高速缓存层级,内存管理由软件执行。这是一个高效的深度学习策略,执行前对操作和内存访问进行了全面的规定。通过消除高速缓存控制器和一致性逻辑,该策略还提升了芯片区域的使用效率。此外,片上内存的软件管理确保了高优先级数据(如模型权重)不被清除。

面向深度学习优化的设计最终为 Nervana 引擎带来了前所未有的计算密度,在计算能力方面,比目前一流的 GPU 高出几个数量级。Nervana 能取得这么大的突破,主要因为它利用商用 28 纳米制程技术建造了 ASIC,未来还可以缩小至 16 纳米,存在继续改进的空间。

吞吐率接近理论极限

我们之前讨论过,数据传输通常是深度学习的一个瓶颈。鉴于这种依赖性,很难确保计算不会因为等待数据而闲置。Nervana 引擎具有面向计算和数据管理的独立管线,不断向计算传输新的数据,确保计算元素一直保持工作状态。管线隔离和充足的本地内存意味着在多数情况下,Nervana 引擎几乎能达到理论最大吞吐率。

内置网络带来了前所未有的速度和模型的可扩展性

Nervana 引擎进行了重新设计,以支持真正的模型并行性。Nervana 引擎包含 6 个双向高带宽链接,支持以无缝的方式实现机箱内部或机箱之间的芯片互联。如此一来,只需为任务分配更多的计算或将模型扩展至前所未有的尺寸,用户便可在当前模型上获得线性加速。例如,在环面配置中相互连接 8 个 ASIC(如下所示),将实现接近 8 倍的线性性能加速。从概念上讲,环面相当于一个大型的处理器:

这种加速功能是 Nervana 所独有的。竞争系统使用了面向全部通信(包括对等和主机到卡的通信)的超额定购、低带宽 PCIe 总线。这款超额订购 PCIe 链接限制了通过添加硬件提升性能的能力。此外,当前系统需要价格高昂且带宽有限的 infiniband 或面向机箱到机箱通信的以太网链接,极大地降低了扩展至一个以上主板或机箱的可能性。

Nervana 引擎提供高带宽内存、前所未有的计算密度、隔离的数据和计算管线以及内置网络,将实现行业内最大规模的深度学习支持。
 

关于作者:

Carey Kloss 是 Nervana 公司的硬件副总裁,1996 年起,他开始投身于芯片行业,在新创公司和上市公司均有任职经验。他非常期待将全新的创新型芯片技术应用于深度学习。

 


Viewing all articles
Browse latest Browse all 583

Trending Articles



<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>