英伟达的GPU霸主地位
根据英伟达的数据,2023年,该公司与AI工作负载相关的英伟达数据中心部门的销售收入为184亿美元,比去年同期增长了409%。2023年,Nvidia在数据中心GPU市场占有约98%的份额,因为其旗舰H100芯片几乎没有竞争对手。
进入2024年,英伟达的GPU销量依然猛增。英伟达CEO黄仁勋也直言,公司新推出的Blackwell在市场的关注度非常高,也有很多客户在买。根据JonPeddieResearch的数据,今年全球GPU市场预计将超过985亿美元。
黄仁勋也认为,数据中心运营商将在未来四年内花费1万亿美元升级其基础设施,以满足AI开发人员的需求,因此这个机会足以支持多家GPU供应商。
新一轮GPU争夺赛
最近几天的消息看来,ElonMusk和MarkZuckerberg已经率先开始了新一轮GPU争夺赛。
马斯克打造100万GPU集群
据金融时报最新报道,埃隆·马斯克的人工智能初创公司xAI承诺将其Colossus超级计算机扩大十倍,以容纳超过100万个图形处理单元,以超越谷歌、OpenAI和Anthropic等竞争对手。
Colossus于今年早些时候建成,仅用了三个月时间,被认为是世界上最大的超级计算机,运行着一个由100,000多个互连的NvidiaGPU组成的集群。
马斯克位于孟菲斯的超级计算机非常引人注目,因为他的初创公司能够快速将GPU组装成一个AI处理工作集群。从开始到结束,只用了122天,马斯克说。超级计算机通常需要数年时间才能建成。
他的公司可能还花费了至少30亿美元来组装这台超级计算机,因为目前这台超级计算机由10万块NvidiaH100GPU组成,每块GPU的价格通常约为3万美元。
马斯克现在想用H200GPU来升级这台超级计算机,H200GPU的内存更大,但每块GPU的价格接近4万美元。
Nvidia也透露称xAI的Colossus超级计算机的规模正在扩大一倍。马斯克还在推特上表示,这台超级计算机即将在一座占地785,000平方英尺的建筑物内整合200,000个H100和H200 NvidiaGPU。
戴尔首席运营官杰夫·克拉克周四在接受采访时表示:“我们从一张白纸开始,在短短几个月内大规模部署了数万个GPU。该集群仍在建设中,我们正在脱颖而出。”
如上所述,马斯克的初创公司xAI正在开发一个大型设施,以提高其在打造人工智能工具的竞赛中的计算能力。大孟菲斯商会周三也发表声明称,扩大田纳西州孟菲斯工厂规模的工作已经开始。
商会表示,Nvidia、戴尔和超微电脑也将在孟菲斯建立业务以支持扩张,同时将成立一支xAI特别行动团队,以为公司提供全天候礼宾服务。
相关报道指出,目前尚不清楚xAI计划在扩展期间使用当前一代Hopper还是下一代BlackwellGPU。Blackwell平台的扩展性预计比Hopper更好,因此使用即将推出的技术而不是现有技术更有意义。但无论如何,获得800,000–900,000个AIGPU都很难,因为Nvidia产品的需求量巨大。
另一个挑战是让1,000,000个GPU以最高效率协同工作,而Blackwell再次更有意义。据华尔街日报之前的报到,英伟达的一位销售主管告诉同事,马斯克对芯片的需求给公司的供应链带来了压力。Nvidia的一位发言人表示,公司一直努力满足所有客户的需求。
当然,此次扩张的资金需求是巨大的。购买GPU(每个花费数万美元)以及电力和冷却基础设施可能会将投资推高至数百亿美元。xAI今年已筹集了110亿美元,最近又获得了50亿美元。目前,该公司的估值为450亿美元。
Meta也砸百亿建设数据中心
在ElonMusk抢购GPU的同时,MarkZuckerberg也不甘示弱。MetaPlat
发表评论