才华横溢的新星 今年天才少女频出

科技资讯 2025-01-01 19:58:04 浏览

DeepSeek-V3横空出世

近期,AI圈里的烫手山芋——Deepseek火爆出圈。12月26日,Deepseek宣布其全新系列模型DeepSeek-V3首个版本正式上线并同步开源。该模型一经发布,便引起了业界人士的广泛关注和好评。

训练

据官方宣称,DeepSeek-V3在多项评测中取得了优异成绩,超越了其他开源模型,如Qwen2.5-72B和Llama-3.1-405B。性能上,V3和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet分庭抗礼,不相上下。

官方技术本文披露,V3模型的总训练成本仅为557.6万美元,远低于GPT-4o等模型约1亿美元的训练成本。这一惊人的性价比优势,让Deepseek在开源AI领域脱颖而出。

罗福莉引发刷屏热潮

继DeepSeek-V3惊艳亮相后,12月27日,一则罗福莉将加入小米的消息再掀波澜。媒体报道中,95后天才少女罗福莉的标签格外吸睛。而这位天才少女,正是来自Deepseek团队

雷军千万年薪挖角天才少女的报道迅速席卷网络。早在12月20日,已有媒体报道过罗福莉将加入小米一事,但并未提及天才少女的标签,报道的热度也远不及近期的刷屏效应。

近期的两起事件看似突然,但又几乎同时发生,令人不禁猜测背后是否有推手在操控。

DeepSeek-V3 的评价褒贬不一

DeepSeek-V3的发布,收获了业内人士的广泛好评。多项数据显示,它在多个评测中取得了高分。其低廉的训练成本也受到赞誉。

Meta科学家田渊栋评价道,DeepSeek-V3的训练看上去是黑科技,是一项伟大的工作。MenloVenture的投资人也表示,这53页的技术本文堪称黄金。

DeepSeek-V3也给自己挖了个坑。当人们用英文whatmodelareyou向它提问时,它却给出了ChatGPT的答案。只有在用中文询问或在whatmodelareyou后面加上问号时,DeepSeek-V3才能正确回答。

论文

DeepSeek官方尚未对这一事件做出回应。有分析认为,可能是DeepSeek-V3的训练数据中包含了大量ChatGPT生成的文本,导致它错误地将自己识别为ChatGPT。

最新消息,三言测试发现,该BUG已修复。三言还测试了此前曾让众多大模型翻车的几个问题,DeepSeek-V3的表现令人满意。

被誉为AI界的拼多多

DeepSeek还有一个别名,叫AI界的拼多多。这个称号源于今年5月,DeepSeekV2开源模型发布时,其推理成本被降到每百万token仅1块钱,仅为Llama370B的七分之一,GPT-4Turbo的七十分之一。

这一惊人的性价比优势,让DeepSeek一举成名。背后的技术突破,是DeepSeek提出了一种崭新的MLA架构,显存占用率仅为传统MHA架构的5%-13%。同时,DeepSeek独创的Deep Dynamic Pruning技术,进一步提升了模型的效率和性能。

未来可期

DeepSeek的出现,打破了大语言模型的传统认知,为AI领域带来了一股清流。其开源、低成本、高性能的特征,让它在未来的AI应用中极具潜力。

随着技术的不断迭代,DeepSeek的性能和应用场景也将不断拓展。可以预见,DeepSeek将继续在AI界掀起一番波澜,谱写新的篇章。

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐