中国技术颠覆硅谷 显卡重要性或被边缘化

科技资讯 2025-01-03 12:55:29 浏览
深度

就在西方还沉浸在圣诞假期,疯狂过年的时候,咱们中国企业给人家放了个新年二踢脚,给人家脑瓜子崩得嗡嗡得。前有宇树科技的机器狗视频让大家惊呼,还要啥波士顿动力。紧接着又来了个国产大模型DeepSeek,甚至有股做空英伟达的味道。

池光耀

V3版本惊艳四座

前几天,DeepSeek刚刚公布最新版本V3。注意,与大洋彼岸那个自称Open,却越来越Close的公司产品不同,这个V3是开源的。模型爆火之前,他们其实是私募机构幻方量化的一个团队。

量化团队跨界搞AI

深度求索能够实现弯道超车,既有点必然,也好像有点运气的意思。早在2019年,幻方就投资2亿元搭建了自研深度学习训练平台萤火虫一号,到了2021年已经买了足足1万丈英伟达A100显卡的算力储备了。要知道,这个时候大模型没火,万卡集群的概念更是还没出现。而正是凭借这部分硬件储备,幻方才拿到了AI大模型的入场券,最终卷出了现在的V3。

你说好好的一个量化投资领域的大厂,干嘛要跑来搞AI呢?深度求索的CEO梁文锋在接受采访的时候给大家聊过,并不是什么看中AI前景。而是在他们看来,通用人工智能可能是下一个最难的事之一,对他们来说,这是一个怎么做的问题,而不是为什么做的问题。就是抱着这么股莽劲,深度求索才搞出了这次的大新闻。

V3性能亮眼

下面给大家具体讲讲V3有啥特别的地方。首先就是性能强悍,目前来看,在V3面前,开源模型几乎没一个能打的。

还记得去年年中,小扎的Meta推出模型Llama3.1,当时就因为性能优秀而且开源,一时间被捧上神坛,结果在V3手里,基本是全面落败。而在各种大厂手里的闭源模型,那些大家耳熟能详的什么GPT-4o、Claude3.5Sonnet啥的,V3也能打得有来有回。

你看到这,可能觉得不过如此,也就是追上了国际领先水平嘛,值得这么吹吗?残暴的还在后面。

成本优势碾压

大家大概都知道了,现在的大模型就是一个通过大量算力,让模型吃各种数据的炼丹过程。在这个炼丹期,需要的是大量算力和时间往里砸。所以在圈子里有了一个新的计量单位GPU时,也就是用了多少块GPU花了多少个小时的训练时间。GPU时越高,意味着花费的时间、金钱成本就越高,反之就物美价廉了。

前面说的此前开源模型王者,Llama3.1405B,训练周期花费了3080万GPU时。可性能更强的V3,只花了不到280万GPU时。以钱来换算,DeepSeek搞出V3版本,大概只花了4000多万人民币。而Llama3.1405B的训练期间,Meta光是在老黄那买了16000多个GPU,保守估计至少都花了十几亿人民币。至于另外的那几家闭源模型,动辄都是几十亿上百亿大撒币的。

你别以为DeepSeek靠的是什么歪门邪道,人家是正儿八经的有技术傍身的。为了搞清楚DeepSeek的技术咋样,咱们特地联系了语核科技创始人兼CTO池光耀,他们主力发展企业向的agent数字人,早就是DeepSeek的铁粉了。池光耀告诉我们,DeepSeek在语言模型的训练上做了很多创新,比如融合了不同模态的数据,从而使得模型可以同时处理文本、图像、代码等多种类型的数据,而且训练效率也更高。同时,DeepSeek还自主研发了高性能计算框架,能够充分利用现有硬件资源,从而降低训练成本。

显卡重要性或被边缘化

总结

DeepSeek的出现标志着国产大模型已经走到了世界前列。DeepSeek的开源和高性价比,也为其他研究者和企业提供了宝贵的资源和机会。未来,随着DeepSeek的不断发展,我们有理由相信,国产AI大模型将迎来更加辉煌的篇章。

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐