中国公司向硅谷 显卡可能没那么重要了

科技资讯 2025-01-03 18:08:53 浏览
性能

就在西方还沉浸在圣诞假期,疯狂过年的时候,咱们中国企业给人家放了个新年二踢脚,给人家脑瓜子崩得嗡嗡得。

前有宇树科技的机器狗视频让大家惊呼,还要啥波士顿动力。紧接着又来了个国产大模型DeepSeek,甚至有股做空英伟达的味道。

具体咋回事儿,咱给你唠明白咯。

开源大模型,性能国际一流

前几天,DeepSeek刚刚公布最新版本V3,注意,与大洋彼岸那个自称Open,却越来越Close的公司产品不同,这个V3是开源的。 DeepSeek公司中文名叫深度求索,他们本来和AI没任何关系。就在大模型爆火之前,他们其实是私募机构幻方量化的一个团队。

而深度求索能够实现弯道超车,既有点必然,也好像有点运气的意思。

早在2019年,幻方就投资2亿元搭建了自研深度学习训练平台萤火虫一号,到了2021年已经买了足足1万丈英伟达A100显卡的算力储备了。要知道,这个时候大模型没火,万卡集群的概念更是还没出现。

而正是凭借这部分硬件储备,幻方才拿到了AI大模型的入场券,最终卷出了现在的V3。你说好好的一个量化投资领域的大厂,干嘛要跑来搞AI呢?

技术傍身,成本极低

深度求索的CEO梁文锋在接受采访的时候给大家聊过,并不是什么看中AI前景。而是在他们看来,通用人工智能可能是下一个最难的事之一,对他们来说,这是一个怎么做的问题,而不是为什么做的问题。

就是抱着这么股莽劲,深度求索才搞出了这次的大新闻,下面给大家具体讲讲V3有啥特别的地方。

首先就是性能强悍,目前来看,在V3面前,开源模型几乎没一个能打的。还记得去年年中,小扎的Meta推出模型Llama3.1,当时就因为性能优秀而且开源,一时间被捧上神坛,结果在V3手里,基本是全面落败。

Llama 模型

而在各种大厂手里的闭源模型,那些大家耳熟能详的什么GPT-4o、Claude3.5Sonnet啥的,V3也能打得有来有回。你看到这,可能觉得不过如此,也就是追上了国际领先水平嘛,值得这么吹吗?残暴的还在后面。

大家大概都知道了,现在的大模型就是一个通过大量算力,让模型吃各种数据的炼丹过程。在这个炼丹期,需要的是大量算力和时间往里砸。所以在圈子里有了一个新的计量单位GPU时,也就是用了多少块GPU花了多少个小时的训练时间。

GPU时越高,意味着花费的时间、金钱成本就越高,反之就物美价廉了。前面说的此前开源模型王者,Llama3.1405B,训练周期花费了3080万GPU时。可性能更强的V3,只花了不到280万GPU时。以钱来换算,DeepSeek搞出V3版本,大概只花了4000多万人民币

而Llama3.1405B的训练期间,Meta光是在老黄那买了16000多个GPU,保守估计至少都花了十几亿人民币。至于另外的那几家闭源模型,动辄都是几十亿上百亿大撒币的。你别以为DeepSeek靠的是什么歪门邪道,人家是正儿八经的有技术傍身的。

为了搞清楚DeepSeek的技术咋样,咱们特地联系了语核科技创始人兼CTO池光耀,他们主力发展企业向的agent数字人,早就是DeepSeek的铁粉了。

池光耀告诉我们,DeepSeek团队在深度学习模型的优化、压缩和加速方面,有着深厚的技术积累。他们自主研发的训练加速引擎,可以大幅提升训练效率,在某些任务上甚至能减少50%的训练时间。

国产AI的崛起

DeepSeek的横空出世,无疑给国产AI的发展注入了一针强心剂。它不仅证明了中国企业在技术创新上的实力,也为国内AI产业的发展提供了新的方向。

随着DeepSeek这样的国产大模型不断涌现,我们有理由相信,中国AI产业将迎来一个更加辉煌的未来。

让我们共同见证,中国AI的崛起。

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐