引言
一款国产开源大模型,最近在国内外 AI 界出圈。这是在资源受限的情况下,对研究和工程的一次令人印象深刻的展示。AI 大神、OpenAI 创始成员 andrej Karpathy(安德烈·卡帕西)发文称,会仔细阅读非常棒的技术本文。他提到的本文,用 53 页的篇幅介绍了一款开源大模型 DeepSeek-V3,其由国内 AI 公司DeepSeek(深度求索)研发推出。
性能媲美闭源模型
综合评估表明,DeepSeek-V3 已成为目前最强大的开源模型,性能可与 GPT-4o 和 Claude-3.5-Sonnet 等领先的闭源模型相媲美。
AI 大牛纷纷点赞
不止安德烈,多位 AI 大牛,如阿里前副总裁贾扬清、MetaAI 科学家田渊栋、英伟达高级研究科学家 jim Fan 等,纷纷对这款模型点赞。有网友认为这是全球最佳开源大模型,甚至认为这将推动 AGI 将比预期更早且能以更低成本实现。
训练成本远低于闭源模型
让这些 AI 大牛点赞的更大原因在于,这款模型仅用了 2000 多张 GPU,训练成本不到 600 万美元,远远低于 OpenAI、Meta 等在万卡规模上训练的模型成本。此前,大模型被认为是需要依靠 ScalingLaw 而
发表评论