中国公司向硅谷显卡可能没那么重要了

科技资讯 2025-01-03 18:08:53 浏览次

就在西方还沉浸在圣诞假期，疯狂过年的时候，咱们中国企业给人家放了个新年二踢脚，给人家脑瓜子崩得嗡嗡得。

前有宇树科技的机器狗视频让大家惊呼，还要啥波士顿动力。紧接着又来了个国产大模型DeepSeek，甚至有股做空英伟达的味道。

具体咋回事儿，咱给你唠明白咯。

开源大模型，性能国际一流

前几天，DeepSeek刚刚公布最新版本V3，注意，与大洋彼岸那个自称Open，却越来越Close的公司产品不同，这个V3是开源的。 DeepSeek公司中文名叫深度求索，他们本来和AI没任何关系。就在大模型爆火之前，他们其实是私募机构幻方量化的一个团队。

而深度求索能够实现弯道超车，既有点必然，也好像有点运气的意思。

早在2019年，幻方就投资2亿元搭建了自研深度学习训练平台萤火虫一号，到了2021年已经买了足足1万丈英伟达A100显卡的算力储备了。要知道，这个时候大模型没火，万卡集群的概念更是还没出现。

而正是凭借这部分硬件储备，幻方才拿到了AI大模型的入场券，最终卷出了现在的V3。你说好好的一个量化投资领域的大厂，干嘛要跑来搞AI呢？

深度求索的CEO梁文锋在接受采访的时候给大家聊过，并不是什么看中AI前景。而是在他们看来，通用人工智能可能是下一个最难的事之一，对他们来说，这是一个怎么做的问题，而不是为什么做的问题。

就是抱着这么股莽劲，深度求索才搞出了这次的大新闻，下面给大家具体讲讲V3有啥特别的地方。

首先就是性能强悍，目前来看，在V3面前，开源模型几乎没一个能打的。还记得去年年中，小扎的Meta推出模型Llama3.1，当时就因为性能优秀而且开源，一时间被捧上神坛，结果在V3手里，基本是全面落败。

而在各种大厂手里的闭源模型，那些大家耳熟能详的什么GPT-4o、Claude3.5Sonnet啥的，V3也能打得有来有回。你看到这，可能觉得不过如此，也就是追上了国际领先水平嘛，值得这么吹吗？残暴的还在后面。

大家大概都知道了，现在的大模型就是一个通过大量算力，让模型吃各种数据的炼丹过程。在这个炼丹期，需要的是大量算力和时间往里砸。所以在圈子里有了一个新的计量单位GPU时，也就是用了多少块GPU花了多少个小时的训练时间。

GPU时越高，意味着花费的时间、金钱成本就越高，反之就物美价廉了。前面说的此前开源模型王者，Llama3.1405B，训练周期花费了3080万GPU时。可性能更强的V3，只花了不到280万GPU时。以钱来换算，DeepSeek搞出V3版本，大概只花了4000多万人民币。

而Llama3.1405B的训练期间，Meta光是在老黄那买了16000多个GPU，保守估计至少都花了十几亿人民币。至于另外的那几家闭源模型，动辄都是几十亿上百亿大撒币的。你别以为DeepSeek靠的是什么歪门邪道，人家是正儿八经的有技术傍身的。

为了搞清楚DeepSeek的技术咋样，咱们特地联系了语核科技创始人兼CTO池光耀，他们主力发展企业向的agent数字人，早就是DeepSeek的铁粉了。

池光耀告诉我们，DeepSeek团队在深度学习模型的优化、压缩和加速方面，有着深厚的技术积累。他们自主研发的训练加速引擎，可以大幅提升训练效率，在某些任务上甚至能减少50%的训练时间。

DeepSeek的横空出世，无疑给国产AI的发展注入了一针强心剂。它不仅证明了中国企业在技术创新上的实力，也为国内AI产业的发展提供了新的方向。

随着DeepSeek这样的国产大模型不断涌现，我们有理由相信，中国AI产业将迎来一个更加辉煌的未来。

让我们共同见证，中国AI的崛起。