雷军千万年薪挖角 95后AI天才少女刷屏

科技资讯 2024-12-30 22:23:25 浏览次

罗福莉曾在 DeepSeek 参与 DeepSeek-V2 的研发，是这款模型的关键开发者之一。在 DeepSeek-V3 发布前几天，媒体报道称小米创始人雷军已开出千万年薪，将罗福莉招至麾下，罗福莉将就职于小米 AI 实验室，领导大模型团队。

AI 界拼多多刷屏海外

据最新发布的技术报告，DeepSeek-V3 参数量为 671B，激活参数为 37B，使用的预训练 token 量为 14.8 万亿。其多项评测成绩超越了阿里的 Qwen2.5-72B 和 Meta deLlama-3.1-405BSeek-V3 一经发布便引发国内外广泛关注。Meta 的 AI 研究科学家田渊栋称在非常有限的预算下实现强劲表现，这是一项了不起的工作。知名 AI 数据公司 ScaleAI 创始人兼 CEO AlexAndrWang 也表示，DeepSeek-V3 训练所需计算量减少了 10 倍，在美国休息的时候，他们努力工作，以更低的成本、更快的速度和更强的实力迎头赶上。

这一圈粉无数的大模型，由被称为 AI 界拼多多的 DeepSeek 研发

公开资料显示，DeepSeek 专注于开发先进的大语言模型和相关技术，由国内知名量化资管巨头幻方量化于 2023 年创立，也被美国硅谷誉为来自东方的神秘力量。

事实上，DeepSeek 并非第一次出圈。早在半年前，其发布的 DeepSeek-V2 就因性能达 GPT-4 级别，但开源、可免费商用、且 API 价格仅为 GPT-4-Turbo 的百分之一而引发业内关注。

对于为何能做到如此高的性价比，DeepSeek 官方解释称

DeepSeek-V2 采用了创新的架构，例如注意力机制方面的 MLA（多头潜在注意力）和前馈网络方面的 DeepSeekMoE 架构等，以实现具有更高经济性的训练效果和更高效的推理。

正因为在训练效率和成本方面的优势，DeepSeek 也是国内最早开启大模型降价的厂商，也是大模型价格战的源头和推动者。在其发布 DeepSeek-V2 之后，字节、阿里、百度等厂商纷纷跟进降价。

同时，DeepSeek 也是中国互联网大厂以外，唯一一家储备了万张 A100 芯片的公司，这为其早期的技术研发提供了坚实的算力基础。

我们不是有意成为一条鲶鱼，只是不小心成了一条鲶鱼

在回应当初为何打响大模型价格战第一枪时，DeepSeek 创始人梁文锋表示。这位毕业于浙江大学电子工程系的 80 后，一直潜心研究技术。据媒体报道，梁文锋在工作中始终保持着低调的作风，和所有研究员一样，每天看本文，写代码，参与小组讨论。

一名人工智能行业资深业内人士向证券时报记者分析称，DeepSeek 以 200 人左右的小团队，且不依靠外部融资，做出了一个有性价比并被全球主流 AI 界人士所认可的大模型。一是他们在早期就买了很多算力卡，投入了很多资源做研究；二是他们是做量化的，不像大厂有其他各种各样的盈利需求，也跟他们不构成竞争关系，能更专注于模型开发。