
DeepSeek横空出世,美中AI竞争会迎来根本性改变吗?
Voice of America
一家一度默默无名的中国科技公司通过低成本硬件开发出的人工智能大语言模型DeepSeek在性能上和美国最领先的AI模型旗鼓相当,这在过去几天里震撼了西方科技界。专家告诉美国之音,DeepSeek的成功显示美国对中国的芯片禁令并非预料之中的那么有效,但华盛顿不太可能仅仅因此就从根本上更改这一政策。
横空出世的DeepSeek
DeepSeek是中国科技公司幻方量化旗下的子公司深度求索打造的一系列人工智能大型语言模型。尽管深度求索2023年7月才成立,但其在AI领域的发展迅速。
2024年12月,深度求索发布了开源模型DeepSeek-V3, 不少测评称该模型的成绩不输美国人工智能工作室OpenAI的GPT-4o等西方公司的类似闭源模型。
1月20日,深度求索又发布了专门适用于数学、编码和逻辑等任务的DeepSeek-R1。
根据深度求索发布的数据,DeepSeek的训练使用的是英伟达的H800型GPU,开发耗资仅不到558万美元,远低于其西方竞争对手的投入。由于美国的出口管制,H800是英伟达专门针对中国市场发售的性能较低的芯片。
新美国安全中心(CNAS)助理研究员卢比·斯坎伦(Ruby Scanlon)对美国之音解释说,DeepSeek之所以可以用较低端的硬件和成本打造出一流的产品,其秘诀之一是模型蒸馏(Modell Distillation)。
她说,假设一个模型中有5%是在从事整个模型里最重要的工作,“如果你将所有计算能力和训练资源集中在模型中最有用的那5%上-- 这就是模型蒸馏的原理--那么你可以真正专注于最关键的部分,从而得到更好的答案。”
硅谷和华尔街反应激烈
硅谷著名投资家、前软件工程师马克·安德森(Marc Andreessen)在他的X账号上赞叹道:“Deepseek R1 是我见过的最惊人、最令人印象深刻的突破之一--作为开源项目,它是一份献给世界的深厚礼物。”
截至1月27日,DeepSeek的应用程序分别在美国和中国的苹果商店登上了免费应用榜榜首。