九游官网

并一窥东说念主工智能的改日九游最新平台

在贪图、荟萃和图形发展史上九游最新平台,Nvidia 有许多独到之处。但其中之一便是它咫尺手头有如斯多的资金,而且由于其架构、工程和供应链,它在生成式东说念主工智能市集处于当先地位,因此它可以运用自由地实施它以为可能取得进展的任何道路图。

到 21 世纪,Nvidia 仍是是一个绝顶收效的创新者,它本色上莫得必要延长到数据中心贪图界限。但 HPC 磋议东说念主员将 Nvidia 带入了加速贪图界限,然后 AI 磋议东说念主员运用 GPU 贪图创造了一个全新的市集,这个市集仍是恭候了四十年,但愿以合理的价钱已毕大王人贪图,并与大王人数据碰撞,真确让越来越像念念考机器的东西成为推行。

向 Danny Hillis、Marvin Minksy 和 Sheryl Handler 致意,他们在 20 世纪 80 年代尝试制造这么的机器,其时他们创立了 Thinking Machines 来鼓励 AI 科罚,而不是传统的 HPC 模拟和建模应用设施,以及 Yann LeCun,他其时在 AT&T 贝尔实验室创建了卷积神经荟萃。他们既没少见据,也莫得贪图智力来制造咱们当今所知说念的 AI。其时,Jensen Huang 是 LSI Logic 的董事,该公司分娩存储芯片,自后成为 AMD 的 CPU 瞎想师。就在 Thinking Machines 在 20 世纪 90 年代初堕入逆境(并最终歇业)时,黄仁勋在圣何塞东侧的 Denny's 与 Chris Malachowsky 和Curtis Priem 会面,他们创立了 Nvidia。恰是 Nvidia 看到了来自磋议和超大界限社区的新兴东说念主工智能机遇,并运行构建系统软件和底层大界限并行硬件,以已毕自第一天起就一直是贪图一部分的东说念主工智能翻新联想。

这一直是贪图的最终状态,亦然咱们一直在走向的奇点——或者可能是南北极。要是其他星球上有人命,那么人命总会进化到这么一个地步:阿谁天下领有大界限吊销性兵器,况兼总会创造出东说念主工智能。而且很可能是在并吞时分。在那一刻之后,阿谁天下对这两种时刻的科罚面貌决定了它能否在大界限骤一火事件中幸存下来。

这听起来可能不像是筹商芯片制造商发展道路图的广博开场白。事实并非如斯,因为咱们生涯在一个意念念的时期。

在台北举行的年度 Computex 商业展上,Nvidia 的聚会独创东说念主兼首席推论官在主题演讲中再次试图将生成式东说念主工智能翻新(他称之为第二次工业翻新)置于其布景中,并一窥东说念主工智能的改日,尤其是 Nvidia 硬件的改日。咱们获取了 GPU 和互连道路图的预览,据咱们所知,这是直到终末一刻才列入贪图的一部分,黄仁勋和他的主题演讲常常王人是这么。

翻新不可幸免

生成式东说念主工智能的环节在于界限,黄仁勋提醒咱们这小数,并指出 2022 年底的 ChatGPT 时刻之是以会发生,唯有出于时刻和经济原因。

要已毕 ChatGPT 的冲破,需要大幅提高 GPU 的性能,然后在此基础上加多大王人 GPU。Nvidia 确乎已毕了性能,这关于 AI 稽查和推理王人很膺惩,而且膺惩的是,它大大减少了生成大型说话模子反应中的 token 所需的能量。请看一看:

从“Pascal” P100 GPU 一代到“Blackwell” B100 GPU 一代,八年间 GPU 的性能普及了 1053 倍,后者将于本年晚些时候运行出货,并将捏续到 2025 年。(咱们知说念图表上说的是 1000 倍,但这并不准确。)

部分性能是通过镌汰浮点精度来已毕的——镌汰了 4 倍,从 Pascal P100、Volta V100 和 Ampere A100 GPU 中的 FP16 体式鬈曲为 Blackwell B100s 中使用的 FP4 体式。要是莫得这种精度的镌汰,性能普及将唯有 263 倍,而这不会对 LLM 性能形成太大影响——这要归功于数据体式、软件科罚和硬件中的大王人数学魔法。请稳当,关于 CPU 市集的八年来说,这仍是相当可以了,每个时钟的中枢肠能提高 10% 到 15%,中枢数目加多 25% 到 30% 王人是广博的。要是升级周期为两年,那么在相通的八年里,CPU 隐隐量将加多 4 到 5 倍。

如上所示,每单元责任量的功耗镌汰是一个环节宗旨,因为要是你无法为系统供电,你就无法使用它。令牌的动力资本必须镌汰,这意味着 LLM 产生的每令牌动力的镌汰速率必须快于性能的提高。

在他的主题演讲中,为了给你提供更深刻的布景学问,在 Pascal P100 GPU 上生成一个 token 需要 17000 焦耳的能量,这大致相当于点亮两个灯泡两天,平均每个单词需要约莫三个 token。是以要是你要生成好多单词,那就需要好多灯泡!当今你运行显然为什么八年前致使不可能以能够使其在职务上推崇细致的界限运行 LLM。望望在 1.8 万亿个参数 8 万亿个 token 数据驱动模子的情况下稽查 GPT-4 大家羼杂模子 LLM 所需的智力:

P100 集群的耗电量跳跃 1000 千兆瓦时九游最新平台,这简直太惊东说念主了。

黄仁勋解释说,借助 Blackwell GPU,公司将能够在约 10,000 个 GPU 上用约莫 10 天的时分来稽查这个 GPT-4 1.8T MoE 模子。

要是东说念主工智能磋议东说念主员和 Nvidia 莫得转向镌汰精度,那么在这八年的时分里性能普及只会是 250 倍。

降愚顽源资本是一趟事,镌汰系统资本又是另一趟事。在传统摩尔定律的末期,两者王人曲直常贫穷的技能,因为每 18 到 24 个月晶体管就会平缓一次,芯片变得越来越低廉、越来越小。当今,贪图复合体仍是达到光罩极限,每个晶体管王人变得越来越奋斗——因此,由晶体管理成的设置本人也越来越奋斗。HBM 内存是资本的很大一部分,先进封装亦然如斯。

在 SXM 系列 GPU 插槽中(非 PCI-Express 版块的 GPU),P100 的发布价约为 5,000 好意思元;V100 的发布价约为 10,000 好意思元;A100 的发布价约为 15,000 好意思元;H100 的发布价约为 25,000 至 30,000 好意思元。B100 的瞻望售价在 35,000 至 40,000 好意思元之间——黄仁勋本东说念主在本年早些时候给与CNBC采访时曾示意,Blackwell 的价钱是这个数字。

黄仁勋莫得展示的是,每一代需要若干 GPU 来运行 GPT-4 1.8T MoE 基准测试,以及这些 GPU 或电力在运行时的资本是若干。因此,咱们证明黄所说的需要约莫 10,000 个 B100 来稽查 GPT-4 1.8T MoE 约莫十天,制作了一个电子表格:

在这八年中,GPU 价钱高潮了 7.5 倍,但性能却提高了 1,000 多倍。因此,当今可以想象使用 Blackwell 系统在十天傍边的时天职稽查出具有 1.8 万亿个参数的大型模子,比如 GPT-4,而两年前 Hopper 一代刚运行时,也很难在数月内稽查出具少见千亿个参数的模子。当今,系统资本将与该系统两年的电费相当。(GPU 约占 AI 稽查系统资本的一半,因此购买 10,000 个 GPU 的 Blackwell 系统约莫需要 8 亿好意思元,运行十天的电费约为 540,000 好意思元。要是购买更少的 GPU,您可以减少每天、每周或每月的电费,但您也会相应加多稽查时分,这会使资本再次高潮。)

你不可能赢,但你也不行甩手。

猜猜怎样着?Nvidia 也作念不到。是以便是这么。即使 Hopper H100 GPU 平台是“历史上最收效的数据中心科罚器”,正如黄仁勋在 Computex 主题演讲中所说,Nvidia 也必须链接用功。

附注:咱们很乐意将 Hopper/Blackwell 的此次投资周期与六十年前 IBM System/360 的发布进行相比,正如咱们客岁所解释的那样,其时 IBM 作念出了于今仍是企业历史上最大的赌注。1961 年,当 IBM 启动其“下一个家具线”研发阵势时,它是一家年收入 22 亿好意思元的公司,在通盘 60 年代破耗跳跃 50 亿好意思元。蓝色巨东说念主是华尔街第一家蓝筹公司,恰是因为它破耗了两年的收入和二十年的利润来创建 System/360。是的,它的一些部分有些晚了,推崇也欠安,但它透澈变调了企业数据科罚的性质。IBM 以为它可能会在 60 年代后期带来 600 亿好意思元的销售额(以咱们革新后的 2019 年好意思元贪图),但他们的销售额唯有 1,390 亿好意思元,利润约为 520 亿好意思元。

Nvidia 无疑为数据中心贪图的第二阶段掀翻了更大的海潮。那么当今真确的赢家可能被称为绿色芯片公司(green chip company)吗?

抑遏是骤然的

不管是 Nvidia 照旧其竞争敌手或客户王人无法抵拒改日的引力以及生成性东说念主工智能带来的利润和分娩力欢喜,而这种欢喜不单是是在咱们耳边低语,更是在屋顶上高声呼喊。

因此,Nvidia 将加速按序,冲破极限。凭借 250 亿好意思元的银行入款和本年瞻望跳跃 1000 亿好意思元的收入,以及可能再有 500 亿好意思元的银行入款,它有智力冲破极限,率领咱们走向改日。

“在这一惊东说念主增万古期,咱们但愿确保链接提高性能,链接镌汰资本——稽查资本、推理资本——并链接延长 AI 功能以供每家公司使用。咱们越提高性能,资本着落得就越锐利。”

正如咱们上头所列的表格了了标明的那样,这是事实。

这给咱们带来了更新的 Nvidia 平台道路图:

这有点难读,是以让咱们仔细磋议一下: 

在 Hopper 一代中,最初的 H100 于 2022 年推出,具有六层 HBM3 内存,并配有一个具有 900 GB/秒端口的 NVSwitch 将它们相连在一齐,并配有 Quantum X400(畴前称为 Quantum-2)InfiniBand 交换机,具有 400 Gb/秒端口和 ConnectX-7 荟萃接口卡。2023 年,H200 升级为六层 HBM3E 内存,具有更高的容量和带宽,这提高了 H200 封装中底层 H100 GPU 的灵验性能。BlueField 3 NIC 也问世了,它为 NIC 添加了 Arm 内核,以便它们可以推论附加责任。

 2024 年,Blackwell GPU 虽然会推出八层 HBM3e 内存,并与具有 1.8 TB/秒端口的 NVSwitch 5、800 Gb/秒 ConnectX-8 NIC 以及具有 800 GB/秒端口的 Spectrum-X800 和 Quantum-X800 交换机配对。 

咱们当今可以看到,到 2025 年,B200(上图称为 Blackwell Ultra)将领有 8 堆叠 HBM3e 内存,每叠有 12 个die高。B100 中的叠层梗概是 8 堆叠,因此这应该代表 Blackwell Ultra 上的 HBM 内存容量至少加多 50%,致使可能更多,具体取决于所使用的 DRAM 容量。HBM3E 内存的时钟速率也可能更高。Nvidia 对 Blackwell 系列的内存容量一直缺乏其辞,但咱们在 3 月份 Blackwell 发布会上预计,B100 将领有 192 GB 内存和 8 TB/秒带宽。跟着改日的 Blackwell Ultra 的推出,咱们瞻望会有更快的内存,要是看到 288 GB 内存和 9.6 TB/秒带宽,咱们也不会感到诧异。

Nvidia 还将在 2025 年推出更高基数的 Spectrum-X800 以太网交换机,可能配备六个 ASIC,以创建无阻碍架构,就像其他交换机常常作念的那样,将总带宽翻倍,从而使每个端口的带宽或交换机的端口数目翻倍。

2026 年,咱们将看到“Rubin” R100 GPU,它在客岁发布的 Nvidia 道路图中曾被称为 X100,正如咱们其时所说,咱们以为 X 是一个变量,而不是任何东西的缩写。事实讲授确乎如斯。Rubin GPU 将使用 HBM4 内存,并将有 8 个堆栈,梗概每个堆栈王人有 12 个 DRAM,而 2027 年的 Rubin Ultra GPU 将有 12 个 HBM4 内存堆栈,况兼可能还有更高的堆栈(尽管道路图莫得提到这小数)。 

咱们要比及 2026 年,也便是现时“Grace”CPU 的后续家具“Vera”CPU 问世时,Nvidia 才会推出一款更纷乱的 Arm 工作器 CPU。NVSwitch 6 芯片与这些芯片配对,端口速率为 3.6 TB/秒,ConnectX-9 的端口速率为 1.6 Tb/秒。意念念的是,还有一种名为 X1600 IB/以太网交换机的家具,这可能意味着 Nvidia 正在交融其 InfiniBand 和以太网 ASIC,就像 Mellanox 十年前所作念的那样。

或者,这可能意味着 Nvidia 试图让咱们扫数东说念主王人感到意思意思,只是为了好玩。2027 年还有其他迹象标明,这可能意味着超等以太网定约将填塞提拔 NIC 和交换机,致使可能使用 UALink 交换机将节点内和跨机架将 GPU 相连在一齐。

届时咱们可能将会看到。

本文开首:半导体行业不雅察九游最新平台,原文标题:《英伟达最新GPU和互联道路图》

风险教唆及免责条目 市集有风险,投资需严慎。本文不组成个东说念主投资提出,也未谈判到个别用户非常的投资标的、财务状态或需要。用户应试虑本文中的任何认识、不雅点或论断是否适合其特定状态。据此投资,包袱无礼。

上一篇:则摄取了全新的Zen5 PU架构九游客户端下载    下一篇:可按照运行转股价每股10.42港元过错为股权九游安卓版下载    

友情链接:

Powered by 九游官网 @2013-2022 RSS地图 HTML地图