导读:英伟达的圣诞大礼包曝光,最强 B300、GB300 算力和显存直接提高 50%,模型推理训练性能史诗级提升,同时还打破了利润率下降的魔咒。多亏了老黄,圣诞节如期而至。
B300 和 GB300:绝不仅是一次小升级
尽管 Blackwell GPU 多次因硅片、封装和底板问题而推迟发布,但这并不能阻挡他们前进的脚步。距离 GB200 和 B2益(获得礼物),而输家则处境不妙(收到煤炭)。这正是英伟达送给所有超大规模云计算供应商、特定供应链合作伙伴、内存供应商以及投资者的特别「圣诞礼物」
推理模型性能飞跃
根据 SemiAnalysis 的最新爆料,B300 GPU 对计算芯片的设计进行了优化,并采用了全新的 TSMC4NP 工艺节点进行流片。相比于 B200,其性能的提升主要在以下两个方面:
- 专为「推理模型」优化:序列长度的增加,导致 KVCache 也随之扩大,从而限制了关键批处理大小和延迟。因此,显存的改进对于 OpenAI o3 类大模型的训练和推理至关重要。
- 显存大幅提升:H100 到 H200 的升级,主要在于更大、更快的显存。而对运营商而言,这 H100 和 H200 之间的性能与经济差异,远远超过技术参数的数字那么简单。
NVL72:推理领域的绝对王牌
当然,英伟达并非唯一能提供大容量显存的厂商。ASIC 和 AMD 都具备这样的能力。而 AMD 更凭借更大的显存容量(MI300X:192GB、MI325X:256GB、MI350X:288GB)占据了优势地位。
不过,老黄手里还有一张「绝对王牌」—— NVL72。
NVL72 在推理领域的核心优势在于,它能让 72 个 GPU 以超低延迟协同工作、共享显存。而这也是全球唯一具备全连接交换(all-to-all switched connectivity)和全规约运算(allreduce)能力的加速器系统。
NVIDIA 的 GB200 NVL72 和 GB300 NVL72,对以下这些关键能力的实现极其重要——
- 超大批处理推理
- 长推理序列
- 分布式训练
- 多模态模型
NVL72 可以在经济效益上实现 10 倍以上提升,尤其是在长推理链场景中。而且,NVL72 还是目前唯一能在高批处理下,将推理长度扩展至 10 万以上 token 的解决方案。
供应链重构
此前 GB200 时期,NVIDIA 提供完整的 Bianca 主板(包含 Blackwell GPU、Grace CPU、512GB LPDDR5X 内存以及集成在同一 PCB 上的电压调节模块 VRM),同时还提供交换机
目前,NVIDIA 正在重新考虑其供应链战略,转向模块化设计。
- NVIDIA 将专注于核心 AIGPU:NVIDIA 将不再提供完整的 Bianca 主板,而是只提供 AIGPU 本身。
- 供应链合作伙伴将提供其他组件:其他组件,如主板、交换机和内存,将由供应链合作伙伴提供。
这种供应链重组将为 NVIDIA 和其合作伙伴带来以下好处:
- 降低成本:模块化设计将使 NVIDIA 专注于其 AIGPU 的设计和制造,从而降低成本。
- 提高灵活性:模块化设计将使客户能够根据自己的需要定制系统,从而提高灵活性。
- 促进创新:模块化设计将鼓励供应链合作伙伴创新,从而促进整个生态系统的创新。
展望未来
GB300 和 B300 的推出标志着英伟达在 AIGPU 市场上的又一个重大飞跃。这些新 GPU 不仅提供了更强大的性能,还打破了利润率下降的魔咒。
展望未来,英伟达将继续引领 AIGPU 市场的发展。NVIDIA 致力于为客户提供最先进的解决方案,满足不断增长的 AI 应用需求。
发表评论