95后AI天才少女火爆全网！雷军豪掷千万年薪挖角！

科技资讯 2024-12-30 10:54:38 浏览次

随着AI的快速发展，大语言模型（LLM）已成为当下最热门的研究领域之一。LLM是一种能够理解和生成人类语言的AI模型，被广泛应用于自然语言处理、搜索引擎优化和对话式AI等领域。

训练LLM的成本非常高昂。例如，Meta旗下的顶尖开源模型Llama-3405B的训练时长高达3080万GPU小时，训练成本超过6000万美元。

而DeepSeek，一个来自中国的AI公司，却用千万分之一的成本训练出了一个与GPT-4、Claude-3.，DeepSeek也是中国互联网大厂以外，唯一一家储备了万张A100芯片的公司。这为其早期的技术研发提供了坚实的算力基础。

AI界的“拼多多”

DeepSeek的出现被业界称为“AI界的拼多多”。和拼多多通过低价策略颠覆了电商行业类似，DeepSeek以低成本的大语言模型搅动了AI领域。

DeepSeek创始人梁文锋表示，“我们不是有意成为一条鲶鱼，只是不小心成了一条鲶鱼。”DeepSeek以200人左右的小团队，且不依靠外部融资，做出了一个有性价比并被全球主流AI界人士所认可的大模型。

DeepSeek的成功也证明了，即使是小公司或研究机构，也可以在AI领域取得突破。随着DeepSeek-V3的开源，更多的人和机构将有机会使用到这一强大的LLM，从而推动AI的进一步发展。