nvidia:八个比特应该对任何人都足够......做艾

新的机器学习调整的帕斯卡尔GPU是1989年的派对


分析 NVIDIA为AI应用程序设计了一些新的Tesla处理器 - P4和P40 - 并正在展示其8位数学性能。

16nm finfet gpus使用nv 帕斯卡尔建筑 然后从 P100于6月推出。 P4适合半高,为缩放服务器的半长度卡,而厨师P40的眼睛在放大盒上设置。

新兵 主要针对推理工作,即:您将硬件提供训练的AI模型,一些合适的软件,以及从麦克风的摄像机或声音等视频的输入数据,并占据决策,语音到文本翻译,对象分类,等等。

我们现在已经到了舞台,其中深入学习模型如此精心制作 - 使用培训数据山脉在强大的系统上构建 - 推断方必须赶上:您需要一个体面的数字克里齐奇处理器来推送信息复杂的神经网络实时做出决定。

这对英特尔,NVIDIA等的好消息是因为它意味着他们可以销售高端筹码进行培训和推理,但为我们的盗窃者提供了坏消息:这意味着越来越多的数据必须向云运送,以及结果回到了我们的手机,平板电脑,小工具和Gizmos,从而提高了对稳定互联网连接和信任的信任。

NVIDIA高级产品经理Roy Kim告诉我们前进的方式是一种“混合”方法,在设备上具有较低的模型,以便可以立即进行决策,而一个更强大的后端处理情况并返回更细微的更强大决定。金京表示,最先进的图像识别系统具有超过150层神经元,因此需要在推导侧的一些oomph。

什么是新的?

为了最大化推理吞吐量,因此您的IOT个人助理云不会让您挂起时间太长,当您提出问题时,NVIDIA已向其Pascal架构添加了两条指示:IDP2A和IDP4A。这些执行具有32位累积的两个和四元素8位矢量点产品计算。

如果我是一个Moron黑客,我现在就抒情宽阔,关于NVIDIA拥抱6502或Z80的美好时光,但我会让你遗憾的是垃圾。基本上,数据科学家说 8位精度适用于神经网络,并且它允许GPU穿过更多的字节,而不是如果它们克制更广泛的16位或32位值。在通过深度的Perceptrons升高输入数据时,您不需要这种精度。

谷歌 Tensorflow加速AsiC 我们理解,使用八个比特进行推理。和英特尔和AMD芯片也可以 爆炸通过 8-bit vectors.

什么?

矢量点产品在核心 人工神经网络。目前所有AI炒作的核心是数学方程式的串 - 点产品和其他公式 - 从输入数据或普通英语中提取来自输入数据的特征,从传感器,相机等信息中确定有趣的东西,这样软件可以采取行动。这是通过组装或培训来完成的,该网络是数据流入并沿着它们的各种路径流入的网络,直到形成答案。在训练期间分配权重以检测传入数据中的特征。

您可以轻松介绍这项工作 在这里等等涉及教程 这里这里 [PDF].

下面的单个神经元的图表看起来可怕,但随着你的想法并不像可怕。你有价值 x1xn 进入左边 n 路径。每个 xi 输入值乘以其路径的重量 wi然后,这些乘法的结果都加起来。这是DOT产品部分。然后将该总和馈入阈值或激活函数,并且该输出被馈送到网络中的下一个Perceptron中。

当您将这些链接在一起时,您可以获得类似这种基本网络的东西,其中有两个输入,三个神经元和输出。

让我们拿走顶部神经元。它需要 M 输入值,将其乘以重量 θ1,并将结果添加到 J 乘以 θ2。它需要该总和,通过激活函数运行,并将结果送入最远的右神经元。

因此,忽略激活功能,顶部神经元的DOT-MARES输出是:(M x θ1)+(J x θ2)。现在想象那些变量的每个8位整数从-127到127,或0到255。现在想象一下,做出高达47万亿的那些点 - 产品操作一秒,所有组合输入进入网络的下一个阶段。这就是NVIDIA的P40声称是什么。这就是加速8位点产品计算的NV意味着什么。

NVIDIA还声称它的P4可以做到最好,第二个使用8位整数的21.8万亿的操作,并且P4就是在归类的图像数量的图像数量方面比英特尔Xeon E5 CPU为“40倍”使用Alexanet培训的模型每件瓦特。

那是你服用你的AI模型并将其压缩到8位重量。这对于训练讲话的模型显然很好,并且也有利于分类图像和类似推理工作。

这是TESLA GPU范围的完整规范,包括新的P4和P40:

Tesla加速器 Tesla M4 Tesla P4 Tesla M40 特斯拉P40
GPU. Maxwell Gm206. Pascal GP104 Maxwell Gm200. Pascal GP102
流媒体
多处理器
8 20 24 30
FP32 CUDA核心/ SM 128 128 128 128
FP32 CUDA CORES / GPU 1024 2560 3072 3840
基点 872 MHz. 810 MHz. 948 MHz. 1303 MHz.
GPU.提升时钟 1072 MHz. 1063 MHz. 1114 MHz. 1531 MHz.
INT8 TOP / S. NA. 21.8 NA. 47.0
fp32 gflop / s 2195 5442 6844 11758
FP64 GFLOP / s 69 170 213 367
纹理单位 64 160 192 240
内存接口 128位GDDR5 256位GDDR5 384位GDDR5 384位GDDR5
内存带宽 88 GB / s 192 GB / s 288 GB / s 346 GB / s
内存大小 4 GB 8 GB 12/24 GB. 24 GB
L2缓存大小 2048 KB. 2048 KB. 3072 KB. 3072 KB.
企业技术新闻文件大小/ sm 256 KB 256 KB 256 KB 256 KB
企业技术新闻文件大小/ GPU 2048 KB. 5120 KB. 6144 KB. 7680 KB.
共享内存大小/ sm 96KB 128KB 96KB 128KB
计算能力 5.2 6.1 5.2 6.1
TDP. 50/75 W. 75 W(50W选项) 250 W 250 W
晶体管 29亿 7.2亿 80亿 120亿
GPU.模具尺寸 227mm². 314mm². 601mm². 471mm².
制造过程 28-nm 16-nm 28-nm 16-nm

我们被告知,P4和P40将于10月和11月销售。如果您真的想掌握类似的套件,NV的Pascal为基础 泰坦X. 图形卡,它在7月出现,也可以做44个8位整数操作。 P40基本上是略微致密的泰坦X.

与此同时,Nvidia已发布 张力,推理引擎在其硬件上运行,以及调用的软件开发套件 深渊,这可以识别高分辨率(HEVC,VP9)视频中的人员和对象。 ®


咬住它的手©1998-2021