起底"大模型界拼多多" 手握万卡的AI新黑马 95后天才被雷军挖走

科技资讯 2025-01-01 14:20:08 浏览
天才

出品|搜狐科技
作者|梁昌均

消息资讯

一款国产开源大模型,最近在国内外 AI 界出圈。这是在资源受限的情况下,对研究和工程的一次令人印象深刻的展示。

AI 大神点赞:令人印象深刻

AI 大神、OpenAI 创始成员 Andrej Karpathy(安德烈·卡帕西)发文称,>此前,大模型被认为是需要依靠 ScalingLaw 而迭代演进,但现在这家低调的中国公司可能提供了另一种可能。最近,小米雷军亲自挖 95 后天才,也让这家公司受到更多关注。

媲美全球最强模型,训练成本仅有 GPT-4o 的 1/18

DeepSeek-V3 是一款自研的 MoE(混合专家架构)模型,参数规模从前代的 2360 亿提升到 6710 亿,在 14.8Ttokens 上进行了预训练,上下文长度为 128K。

评测结果显示,DeepSeek-V3 的性能已经成为目前最强大的开源模型,同时在多个主流评测基准上可媲美目前最强大的闭源模型,特别是在代码和数学方面。

在知识能力方面,DeepSeek-V3 在 MMLU-Pro(综合学科增强版)和 GPQA-Diamond(化学、物理和生物)等基准测试超越阿里、Meta 等所有开源模型,并领先 GPT-4o,但不及 Claude-3.5-Sonnet。

在数学、代码和推理能力方面,DeepSeek-V3 在 MATH500、AIME2024 及 Codeforces 等多个主流基准测试中,不仅碾压阿里和 Meta 的最新开源模型,同时超越 GPT-4o 和 Claude-3.5-Sonnet。

深度求索还提到,DeepSeek-V3 甚至还在特定基准测试上超过强化推理能力的 o1-preview(预览版),如 MATH-500,展示其出强大的数学推理能力。不过,OpenAI 早前发布的 o1 正式版依然是科学、数学和编码等推理领域的王者。在 GPQA-Diamond 等多个基准评测上,DeepSeek-V3 与 o1 相比均存在明显差距。

此前,业内不少观点认为,开源模型无法追赶闭源模型。但开源的 DeepSeek-V3 则证明,开源和闭源模型的差距可以缩小,并完全有希望超越闭源模型。

黑马

不过,真正引起一众 AI 大牛赞叹的是,DeepSeek-V3 训练成本竟然只用了不到 600 万美元——准确说是 557.6 万美元。该模型在由 2048 块 H800 组成的 GPU 集群上训练 3.7 天,预训练耗时不到两个月就完成,完整训练仅用了 278.8 万 GPU 小时。

不过,深度求索强调,该成本仅包括 DeepSeek-V3 的官方训练,不包括先前与架构、算法或数据的有关研究和消融实验相关成本。安德烈用 a joke of a budget(玩笑般的预算)表达了对成本的惊讶。他提到,Llama-3-405B 的训练耗时 3080 万个 GPU 小时,而 DeepSeek-V3 看起来是一个更强大的模型,但用了不到 280 万个 GPU 小时,这意味计算量仅有 Llama-3-405B 的 1/11。

公开信息显示,Llama-3-405B 是在近 1.64 万块 H100 GPU 集群上训练,预训练时间为 54 天,耗时超过 2118 万 GPU 小时,成本超过 5460 万美元,

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐