95后天才遭雷军挖走 起底大模型界的拼多多 手握万卡的AI新黑马

科技资讯 2025-01-02 01:26:24 浏览

出品 | 搜狐科技 作者 | 梁昌均


引言

95后天才遭雷军挖走起底大模型界的拼多多手握

一款国产开源大模型,最近在国内外 AI 界出圈。这是在资源受限的情况下,对研究和工程的一次令人印象深刻的展示。AI 大神、OpenAI 创始成员 andrej Karpathy(安德烈·卡帕西)发文称,会仔细阅读非常棒的技术本文。他提到的本文,用 53 页的篇幅介绍了一款开源大模型 DeepSeek-V3,其由国内 AI 公司DeepSeek(深度求索)研发推出。


性能媲美闭源模型

综合评估表明,DeepSeek-V3 已成为目前最强大的开源模型,性能可与 GPT-4o 和 Claude-3.5-Sonnet 等领先的闭源模型相媲美。


AI 大牛纷纷点赞

不止安德烈,多位 AI 大牛,如阿里前副总裁贾扬清、MetaAI 科学家田渊栋、英伟达高级研究科学家 jim Fan 等,纷纷对这款模型点赞。有网友认为这是全球最佳开源大模型,甚至认为这将推动 AGI 将比预期更早且能以更低成本实现。


训练成本远低于闭源模型

让这些 AI 大牛点赞的更大原因在于,这款模型仅用了 2000 多张 GPU,训练成本不到 600 万美元,远远低于 OpenAI、Meta 等在万卡规模上训练的模型成本。此前,大模型被认为是需要依靠 ScalingLaw 而

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐