英伟达发布最强GPU B200，能否引领AI行业“新摩尔定律”？

刚刚在斯坦福商学院SIEPR经济峰会上提出“在未来的10年里，英伟达将会把深度学习的计算能力再提高100万倍。”豪言壮语的黄仁勋，凭借一颗B200又一次“沸腾”了整个AI行业。

在当地时间3月18日的演讲中，英伟达的黄仁勋发表了题为《见证AI的变革时刻》的主题演讲，介绍了英伟达在最新研发进展方面的成果。他围绕五大板块，分别是新的产业发展、Blackwell平台、创新软件NIMs、AI平台NEMO和AI工坊服务，以及仿真平台Omniverse和适用于自主移动机器人的Isaac Robotics平台展开了介绍。

英伟达“史上最成功的产品”

其中，最为炸场的，莫过于黄仁勋首次揭示了英伟达的最新一代AI芯片Blackwell GPU，即B200，这一GPU平台也是黄仁勋口中“英伟达史上最成功的产品”。

据介绍，Blackwell GPU以数学家David Harold Blackwell的名字命名，该芯片采用台积电的4纳米工艺，拥有2080亿个晶体管，同样沿用了英伟达此前推出的Hopper架构，可以支持多达10万亿个参数的AI模型。据介绍，B200能够提供高达20 PFlops的FP4八精度浮点运算能力，较之前的产品性能有了质的飞跃。此外，黄仁勋还展示了基于B200的GB200加速卡，带来了巨大的性能提升和效率提高。此外，Blackwell 架构还采用了第五代NVLink高速互联、第二代Transformer引擎等多方位全面升级。

不仅单块GPU性能大幅提升，两个B200 GPU与Grace CPU结合就成为GB200超级芯片，通过900GB/s的超低功耗NVLink芯片间互连技术连接在一起，成为一个Blackwell计算节点。

在NVLink Switch支持下，英伟达暴力地将72块B200连接在一起，最终成为“新一代计算单元”GB200 NVL72。一个像这样的“计算单元”机柜，FP8精度的训练算力就高达720PFlops，直逼H100时代一个DGX SuperPod超级计算机集群（1000 PFlops）。与相同数量的72个H100相比，GB200 NVL72对于大模型推理性能提升高达30倍，成本和能耗降低高达25倍。

英伟达还透露，这一全新的芯片将在2024年晚些时间上市。目前，亚马逊、戴尔、谷歌、Meta、微软、OpenAI、特斯拉都已经计划使用Blackwell GPU。

除了硬件创新，英伟达还在软件领域取得了新的进展。NIM微服务是其中的一项亮点，它可适用于优化英伟达生态系统中的20多个AI模型，为企业提供定制化的AI应用开发和部署服务。此外，黄仁勋还介绍了英伟达的仿真平台Omniverse和Isaac Robotics平台，展示了英伟达在机器人领域的前瞻性布局和创新成果。

AI行业的“新摩尔定律”

在大模型引领的人工智能的热潮之下，凭借着GPU的算力以及带宽领域的优势，以及自身的CUDA生态优势，不仅让英伟达成为AI领域最赚钱的企业之一，同时也让黄仁勋在AI时代有了更大的“野心”。在英伟达2023年财报中，截至9月数据中心的收入为150亿美元，到了2023年底，其收入同比增长了279%。

刚刚在斯坦福商学院SIEPR经济峰会上提出“在未来的10年里，英伟达将会把深度学习的计算能力再提高100万倍。”

如果将这一目标解构，便可以粗略得出英伟达每年要将算力提升为前一年的4倍。这意味着，如果英伟达的目标真正实现，这家公司将成为引导AI行业“新摩尔定律”发展的奠基者。

众所周知，“摩尔定律”是英特尔创始人之一戈登·摩尔的经验之谈，其核心内容为：集成电路上可以容纳的晶体管数目在大约每经过18个月到24个月便会增加一倍。而对于英伟达而言，“每12个月将AI算力提升4倍”的目标，相比摩尔定律，无疑显得更加乐观与激进。

要知道，此前8年时间的时间里，AI算力的增长也仅仅在以“千”为量级。

根据英伟达现场发布的公开资料，新一代AI芯片B200在处理支持人工智能的模型方面表现出了显著的性能提升。与之前的H100相比，B200在开发技术的过程（预训练阶段）以及技术运行过程（推理）中的速度都提高了数倍。

具体来说，以前训练一个拥有1.8万亿参数的模型需要8000个H100GPU和15兆瓦的功率。而如今，使用新的B200芯片，同样的模型只需要2000个GPU就可以完成训练，同时功耗仅为4兆瓦，相当于原先功耗的约四分之一。这意味着在相同的任务下，使用B200芯片进行训练不仅速度更快，而且能够显著降低能源消耗，提高效率。

可以说，从性能与能效表现的角度来看，英伟达新一代AI芯片B200确实的有了长足的进步。不过，大模型之家也注意到，尽管第五代NVLink Switch高速互联技术为每个GPU 提供了1.8TB/s双向吞吐量，确保多达576个GPU之间的无缝高速通信，同时大幅节约了能耗。

但面对4nm工艺制程即将达到极限，英伟达选择提升算力的方式非常的粗暴，通过堆砌运算单元规模，实现性能的大幅提升。这意味着，在大模型训练算力6个月翻一番的预期之下，想要实现算力的持续供给，需要不断更新迭代硬件设备，甚至不断扩建更大的算力集群。

这意味着，英伟达将核心发力点放在了“更大”与“更强”之上，通过不断探索AI算力的极限，在开辟加速计算领域的“新摩尔定律”的同时，收割头部AI企业对于算力增长的需求。

写在最后

在Blackwell芯片的背后，我们可以看到“新摩尔定律”并非遥不可及，但也要注意到尽管NVIDIA将可扩展的GPU架构与摩尔定律相结合，但硬件性能的提升现在更多依赖于芯片之间的互联。此外，硬件性能的提升并非像宣传中所说的那样夸张，而是通过不断提升数据精度实现的，从最初的高性能计算到现在的FP64、FP32、FP16、FP8以及FP4，这也预示着随着半导体行业逐渐逼近物理极限，大模型对于算力的提升也要寻找新的突破方式。

同时，GB200 NVL72的液冷机架以及“超级盒子”DGX SuperPOD的发布，也为大型模型公司提供了更便捷的“批发”选择，极高的性能背后，其不菲的价格也将进一步提振英伟达未来的营收预期。

但不可否认的是，英伟达此次发布的一系列设备，使得IT部门能够为各用户和工作负载提供出色的性能，成为AI数据中心基础设施的典范。在更强大算力的支撑之下，人工智能领域的新一轮突破也将指日可待。