随着AI的快速发展,大语言模型(LLM)已成为当下最热门的研究领域之一。LLM是一种能够理解和生成人类语言的AI模型,被广泛应用于自然语言处理、搜索引擎优化和对话式AI等领域。
训练LLM的成本非常高昂。例如,Meta旗下的顶尖开源模型Llama-3405B的训练时长高达3080万GPU小时,训练成本超过6000万美元。
而DeepSeek,一个来自中国的AI公司,却用千万分之一的成本训练出了一个与GPT-4、Claude-3.,DeepSeek也是中国互联网大厂以外,唯一一家储备了万张A100芯片的公司。这为其早期的技术研发提供了坚实的算力基础。
AI界的“拼多多”
DeepSeek的出现被业界称为“AI界的拼多多”。和拼多多通过低价策略颠覆了电商行业类似,DeepSeek以低成本的大语言模型搅动了AI领域。
DeepSeek创始人梁文锋表示,“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”DeepSeek以200人左右的小团队,且不依靠外部融资,做出了一个有性价比并被全球主流AI界人士所认可的大模型。
DeepSeek的成功也证明了,即使是小公司或研究机构,也可以在AI领域取得突破。随着DeepSeek-V3的开源,更多的人和机构将有机会使用到这一强大的LLM,从而推动AI的进一步发展。
发表评论