“当我们所有人都在过圣诞的时候,一个中国实验室却发布了震撼世界的AI模型。这显然具有象征意义。长期以来,美国都在AI竞争中处于全球领先地位,但DeepSeek的最新模型却在改变这一格局。”
Scale AI的创始人兼CEO亚历山大·王(Alexandr Wang)在接受美国媒体采访时这样感慨。
短短半个月时间,一款中国实验室发布的AI模型就用令人难以置信的实力数据,震撼了整个硅谷AI领域。
从科技巨头到AI新贵再到技术专家,几乎所有人都感受到了来自中国AI行业的强烈冲击。更令人震惊的是,中国AI行业在遭受出口管制和算力匮乏情况下,实现了弯道超车。
横空出世空降登顶
这个实验室就是来自中国的DeepSeek,2023年刚刚创建。他们在去年年底发布了一个免费开源的大语言模型。
根据该公司发表的论文,DeepSeek-R1在多个数学和推理基准测试中超越了行业领先的OpenAI o1等模型,更在性能、成本、开放性等指标方面压倒了美国AI巨头。
科技行业需要用数据说话。在一系列第三方基准测试中,DeepSeek的模型在从复杂问题解决到数学和编程等多个领域的准确性上,超越了Meta的Llama 3.1、OpenAI的GPT-4o以及Anthropic的Claude Sonnet 3.5。
就在上周,DeepSeek又发布了推理模型R1,同样在诸多第三方测试中超越了OpenAI最新的o1。
在AIME 2024数学基准测试中,DeepSeek R1取得了79.8%的成功率,超过了OpenAI的o1推理模型。
在标准化编码测试中,它展示了“专家级”的表现,在Codeforces上获得了2,029的Elo评分,超过了96.3%的人类竞争对手。
Scale AI则使用了“人类最后考试”(Humanity’s Last Exam)来测试AI大模型,它采用来自数学、物理、生物、化学教授提供的“最难问题”,涉及最新的研究成果。
在测试了所有最新的AI模型后,亚历山大·王不得不赞叹,DeepSeek的最新模型“实际上是表现最出色的,或者至少与o1等最好的美国模型不相上下”。
毫不夸张地说,DeepSeek在美国AI行业引发了一场地震,更引发了媒体的争相报道。几乎所有的主流媒体和科技媒体,都报道了中国AI模型超过美国这一爆炸新闻。
短短几天时间,DeepSeek就已经成为苹果应用商店排名第一的免费应用,力压OpenAI的ChatGPT。