本篇文章3490字,读完约9分钟
深圳贷款【科技在线】在古典工匠技艺的时代,挥鞭前进的是英特尔及其所发扬的摩尔定律。 年后,为了追求技术,进入了深度学习的新时代,但1993年创立的NVIDIA成为了强大的黑马。
NVIDIA经过工艺深度培训平台取得的立场差异,很多已经成为世界标准。 我们以远远超出摩尔定律的速度迅速增加了护理功能,促进了安康、交通、科学探索等无数规模的突破。 在一次演讲中,创始人兼首席执行官黄仁勋( jensen huang )对孤高、成千上万不雅观的观众说。
去年,站在统一的舞台上,黄仁勋说想找到摩尔定律之后的道路。 以神经收集为基础的人工智能,爆炸式增长经过一年已经有五年了。 在这五年中,gpgpu (通用图形处理器)成为了人工智能研发的利器,因在意密集型的进修使命而独步全国。 据NVIDIA称,与5年前的ferml gpu架构相比,新一代volta gpu架构的浮点护理提升了25倍。
摩尔定律是十年五倍,黄仁勋说这是超越摩尔定律的说明。
NVIDIA开发者社区的扩大很敏捷,印证了黄仁勋大胆的声明。 据该企业统计,gpu开发者今年将达到82万人,比5年前增加5倍。 使用NVIDIA GPU开发所需的并行护理体系结构套件cuda下载量达到800万,其中约一半在曩昔的一年间下载。 不仅如此,该公司提供的gpu加速技术也被世界许多超级机器接受,其volta gpu在美国summit和sierra两大超级计算中增加了约100 pflops万亿次的浮点计算才能)。
在美国时间3月27日的NVIDIAGPU工匠技艺大会( gtc )上,该公司带来了许多在深度学习、主动驾驶、机器人规模上掀起足够浪潮的新产物。 其中重要的是一年一度的新型核弹级显卡,这次不是gtx 11系列,也不是传言中非常嘈杂的矿卡,而是黄仁勋被称为桌面超市等热门机器的事务所nvidia dgx-2。
dgx-2是专门用于人工智能练习和推理任务的台式机护理机。
这是其内部结构:
如你所见,图中1和2的位置看起来像良多芯片。 其实他们是NVIDIA的tesla v100 volta架构gpgpu,单一的计算力达到双精度7.8 tflops (兆次浮点计算)、单精度15.7tflops、深度研修125tflops。
另一方面,dgx-2单机箱搭载16枚v100,整体功能达到了惊人的2pflops行业首款拥有1万亿次浮点计算能力的单机箱计算机,将其称为超级计算机也许并不夸张。
但是,dgx-2的计算能力不是堆栈,如果在它们之间不能实现高带宽的数据相互通用的例子就没有意义了。
时间回到两年前,NVIDIA提出在经过深入培训的设备市场直接挑战英特尔,推出了pascal架构的p100 gpgpu。 当时,主流办公设备pcie总线接口的带宽和延迟已经不能满足NVIDIA的诉求。 因此,我们开发了一种新的设备内互联标准nvlink,并将带宽提高到300 gb/s。 在1个8枚gpgpu的体系中,nvlink大致如下。
但是,nvlink的标准拓扑结构理论上支持8块显卡,不足以满足NVIDIA支持新系统中内置的越来越多的显卡的必要性。 因此,作为nvlink的根本,NVIDIA开发了在名为nvswitch的显卡之间完成nvlink使命的协处理器。 该元件在dgx-2上,在16枚gpgpu中的2个之间实现了nvlink互通,总带宽超过了14.4 tb。
这个数字创造了桌面级计算机内总线接口带宽的新记录,但实现这个的目的不是跑步,而是dgx-2要1 )更快地练习高度复杂的神经收集,2 )以及许多非结构的神经收集
NVIDIA的黄仁勋,背景是NV开关的形象
n卡之所以被称为核弹,是因为有一个替代的解释编排。 其多焦点架构在基于这个焦点数论凹凸不平的时代,看起来像是聚焦了成百上千个cuda的焦点,很不可思议。 另一方面,在dgx-2上,16枚v100的cuda核数达到了疯狂的81,920焦点。 这个现实与NV交换机的技术、512gb的现有、30TB的nvmeSSD、2个XeonplatimumCPU、最大1.5tb的主机存储器相连接
黄仁勋以gpu深度培训里程碑式的杰作alexnet为例。 研究人员alex krizhevsk在NVIDIAGPU上练习了Alex网络6天。 该研究在首次的抓取梯度下降法和卷积神经采集停止护理机图像识别中,明显优于以往的手动参数法,获得了imagenet图像识别比赛。 alexnet让alex世界闻名,这六天可以说是值得的。
但是,同样是8层的卷积神经收集,我用dgx-2跑了一下,只花了18分钟就达到了同样的效果。 黄仁勋说,五年,前进了五百倍。
这说了很多工具。 其一,在这五年中,NVIDIA的技术前进节奏无法用摩尔定律来表达。
dgx-2的主要应用场景是明显加快高端科学研究和商业人工智能产物的研发和上市。 那显然不是丧的产品,达到了150万美元的售价
开玩笑的。 售价为40万美元
但是,即使是40万美元的不含税成本,也压倒了手头拮据的工业顾客。 不要担心。 dgx-2只是被今天的人工智能规模所NVIDIA的几个新产物之一。 其他包括:。
1 ) dgx机箱中的v100 gpgpu升级版,内存升级到了32 gb。 只需要单一或少量显卡的研究者们,可以致力于获得体臭,练习更多复杂的神经收集:
2 )为囊括电影视觉、建筑设计等创意产业而发售的quadro gv100显卡产品。 quadro gv100是事务所的显卡,里面有两张v100 gpu。 该显卡支持NVIDIA的新光线跟踪技术nvidia rtx :
3 ) nvidia rtx )如上所述,NVIDIA开发的极其复杂且集中的光效技术。 简单地说,像现实世界一样,由于许多光源混杂,许多复杂的状况,光照射到材质不符的物体上而导致的散失,或者物体对光源或其他物体,由于曲面、球面乃至犯警规则的概况而产生的反射,或者光源照射到玻璃上
4 ) tensorrt 4、新一代tensorflow推理工具gpu与美国科技企业去年发布的深度学习兼容框架标准onnx兼容终于可以用Kubernetes(k8s )处理NVIDIAGPU了,aws、NVIDIAGPU
5 )新的活动驱动器汽车解决方案orin。
6 )驾驶伪装模仿工匠艺drive sim constellation。 这是一项很幽默的技术,可以模仿NVIDIA和其他开放平台的科技企业在gpu主动驾驶汽车进行练习,从而明显降低开放式实训的危险性。 这个工匠技能还有一个奇怪的用例。 访问这个平台的汽车将来可以进行长距离驾驶。 黄仁勋示范司机在会场,用vr头和方向盘长途驾驶,车躲起来停滞不前,停车成功。 硅星人之后将停止对这项技术进行秘密探索。
7 )机器人开发了开放式平台issac,拥有高精度地图制作等NVIDIA集成在主动驾驶中的技术。
8 )项目Clara,云医疗诊断的项目。 该项目很幽默,简单地说,NVIDIA医院提供了基于云的医疗图像识别超算。 一个场景是进入心脏b超的实时视频流,云显卡可以使用练习的神经收集,将画面变为三维体积图像,实时高亮器官,生成更自由难看的三维画面。 现场演示的影像中还出现了内脏器官功能的实时数据,囊括了每次搏动的泵出血量等,加深了印象。
硅谷是t恤和拖鞋控制的地方,但NVIDIA创始人黄仁勋在这里变化很大。 穿着皮夹克的他以技术人员的身份负责市场。 演讲一开始,没有其他许多科技大佬特有的空虚气氛。
在gtc,你可能会觉得自己的气氛还不够,但他直接站在椅子上接受了记者的提问; 虽然他参加过公关练习,但回答问题时的恳切程度依然在科技大佬中很奇怪,直接问旁边的公关是不是也想打断我? 但是我已经结束了。 被称为核弹教父的黄仁勋,名副其实。
他冲进常见的x86框架服务堆栈,一个机柜有几十台工作人员,十几个机柜的总本钱高达几百万美元。 而且,要获得同样深度学习的练习局,几台、十几台v100、或者一台dgx-2,至少需要6位数的成本。 所以,他在演讲中频繁地对台下不雅观的观众说:“多买一些比较划算。” ( the more you buy,the more you save.) ) gpu工匠技艺前沿的演讲几乎变成了电视购物。
watch now cause here i come .是黄仁勋上台前温馨歌曲的歌词。
至少在今天,以摩尔定律为基础,黄仁勋和他的NVIDIA看起来没有势头。
标题:“英伟达发布8万核桌面机!核弹教父势不可挡”
地址:http://www.kwan-yin.com.cn/xwzx/26854.html