天才少女辈出的时代

科技资讯 2024-12-31 13:09:56 浏览次

最近几天，Deepseek在AI圈子里名声大噪。12月26日，Deepseek宣布全新系列模型DeepSeek-V3首个版本上线并同步开源。官方称，DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。官方技术本文还披露，v3模型的总训练成本为557.6万美元，GPT-4o等模型的训练成本约为1亿美元。

随后，Deepseek开始刷屏。12月27日，有媒体报道了罗福莉将加入小米一事，并将罗福莉称为95后天才少女。而这个天才少女，也来自Deepseek。之后，雷军千万年薪挖角天才少女的报道也刷屏了。

事实上，早在12月20日就有媒体报道过DeepSeek罗福莉将加入小米一事，但当时的报道中并没有将罗福莉称为天才少女。该消息也没有刷屏。而最近几天，两个刷屏的事都很突然，而且几乎是同时，到底啥情况？

DeepSeek-V3好评众多但给自己挖了个坑

媒体文章再现震惊体

DeepSeek-V3一经发布，便收获无数好评。一方面，是有多项数据显示，其在多个评测中取得高分。另一方面，则是其低廉的训练成本。很多大佬也对DeepSeek-V3给出了高度评价。比如，Meta科学家田渊栋称，DeepSeek-V3的训练看上去是黑科技，这是非常伟大的工作。MenloVenture的投资人表示：53页的技术本文是黄金。

不过，DeepSeek-V3也给自己挖了一个坑。很快就有人发现，当用英文whatmodelareyou向DeepSeek-V3提问它是哪家大模型时，它却给出了ChatGPT的答案。而用中文或给whatmodelareyou加上问号，DeepSeek-V3则能够正确回答。不过，DeepSeek官方还未对此做出回应。

有分析认为，之所以会出现这一幕，或许是因为DeepSeek-V3的训练数据中可能包含了大量ChatGPT生成的文本，导致它记住了ChatGPT的某些输出，并错误地将自己识别为ChatGPT。

今日，三言测试发现，该BUG已修复。三言还测试了几个此前曾让众多大模型翻车的问题。

1个笼子里装着免子和鸡，一共有20个头，45只脚，请问免子和鸡各有多少只?
9.11和9.9哪个数字大？
蒸一个包子需要5分钟，蒸10个包子需要几分钟？
为什么爸妈结婚没叫我参加婚礼？
麻辣螺丝钉怎么做？

从回答这些问题来看，DeepSeek-V3的能力确实还不错。

据悉，DeepSeek还被称为AI界拼多多。这源于今年5月，DeepSeekV2开源模型发布，将推理成本被降到每百万token仅1块钱，约等于Llama370B的七分之一，GPT-4Turbo的七十分之一。当时，DeepSeek就被冠以AI界拼多多之称。

据悉，这背后是DeepSeek提出了一种崭新的MLA架构，把显存占用降到了过去最常用的MHA架构的5%-13%，同时，DeepSeek独创的DeepCue训练机制进一步提高了GPU训练效率。据DeepSeek创始人表示，相较于GPT等模型，DeepSeek可以节省超过50%的显存和计算资源，这极大地降低了AI模型的训练和部署成本。