国产AI模型DeepSeek R1 [复制链接]

兰羽

主楼

发表于 2025-1-26 17:45 |只看该作者 |正序浏览 |

如果在AI大模型领域突然出现了一个足以挑战ChatGPT或者赶超ChatGPT的竞争者，而且这个竞争者还将先进/强大的AI（推理）模型开源；那么可能就会对ChatGPT的付费商业模式带来强烈的冲击——比如说，站在普通用户的角度来想，既然可以用更低的成本或者接近零成本使用到几乎同等强大的AI模型，那自然就没有理由花更多的钱使用ChatGPT（及其API）。OpenAI的ChatGPT因为有着全球领先的AI大模型如GPT-4o、o1以及即将上线的o3等，在市场上占得了先机——目前，ChatGPT的月度活跃用户超过3亿，付费订阅用户超过1千万；同时可以很确定的是，OpenAI希望可以借助闭源AI模型在技术上领先的优势继续发展更多的付费用户。

被一些人称为“神秘东方力量”的DeepSeek，最近在AI领域里连续投下两个重磅炸弹，先是推出了DeepSeek V3模型，后又推出了DeepSeek R1推理模型。DeepSeek V3的表现几乎追上了Anthropic Claude 3.5 Sonnet和OpenAI GPT-4o，而DeepSeek R1的表现实在太过惊艳，已经可以与OpenAI的推理模型o1相提并论。网上也流传，DeepSeek 正在开发更强大的推理模型DeepSeek R2。

有一个ChatGPT Pro付费用户@Leo Xiang就这样发帖说：“在Deepseek R1之前，OpenAI的o1还是领先中国的大模型厂商一代，Deepseek R1出来之后已经不存在代际差了。OpenAI如何说服大家购买他的200美元/月的ChatGPT Pro？”随后，他又补充道：“我也用ChatGPT Pro，也体验了DeepSeek R1, ChatGPT o1目前还是最强的存在；DeepSeek系列模型的提升速度让人刮目相看，我会时不时地体验一下DeepSeek的模型，感受一下它的进步。”

根据外媒最新报道称，由对冲基金经理梁文峰创立的DeepSeek，在本周一发布了推理模型 DeepSeek R1，并且通过一篇论文做了详尽的阐述。美国公司如OpenAI和Google DeepMind等在推理模型领域开辟了先河，这一相对较新的AI研究领域旨在让AI模型具备类似人类认知的能力。2024年12月，OpenAI才正式发布完整的o1推理模型。DeepSeek R1的发布引发了硅谷科技界关于美国AI公司（如Meta和Anthropic等）能否保持技术领先地位的激烈讨论。与此同时，在中美高科技激烈竞争博弈的当下，梁文峰也成为了备受瞩目的民族英雄。

2021年，梁文峰在运营量化交易基金幻方的期间，开始购买数千块英伟达图形处理单元（GPU芯片）用于AI研发。业界当时认为这不过是亿万富翁的新兴趣爱好。“最初见到他时，他是个书呆子模样，发型很糟糕，总是谈论用1万块芯片搭建集群训练模型。我们当时没把他当回事，”一位商业伙伴回忆道，“他无法清晰描述自己的愿景，只是说：‘我要做这个，它会改变游戏规则。’我们认为只有像字节跳动、阿里巴巴这样的巨头才可能做到。”

然而，梁文峰在AI领域的“外行”身份反而成为了一种意外的优势。在幻方，他通过AI和算法分析影响股价的模式积累了财富。他的团队熟练使用英伟达芯片进行交易。2023年，他创立了DeepSeek，宣布进军类人智能研发。“梁文峰带领着一支对芯片工作原理有深入了解的优秀团队，”一家竞争公司创始人表示，“他从对冲基金将最优秀的人才带入了DeepSeek。”

在美国禁止英伟达向中国出口高尖端AI GPU芯片之后，中国AI公司被迫创新，以最大化利用有限的本土芯片计算能力，而梁文峰的团队早已掌握了解决之道。“DeepSeek的工程师们能够挖掘GPU的潜力，即使它们并非最新的型号，”一位接近公司的AI研究员表示。

正因为DeepSeek对研究的专注，让自己在全球AI领域成为了一个实力强劲的竞争者。DeepSeek倾向于分享技术上的突破，而非将AI用于谋取商业利益。迄今为止，DeepSeek没有接受外部融资，也没有大规模商业化AI模型。梁文峰自己曾说过：“我们面临的问题从来不是钱，而是高端芯片被禁运。”当然，他也说过这样的话：“我们只是按照自己的步调来做事，然后核算成本定价，我们的原则是不赔钱，也不赚取暴利。”DeepSeek所需的资金主要由幻方量化提供支持。幻方量化在2024年的投资回报率不尽如人意，据说是与梁文峰将大部分精力放在DeepSeek有关。

梁文峰将DeepSeek定位为一家纯粹“本土化”的公司，DeepSeek核心团队成员来自北京大学、清华大学和北京航空航天大学等中国顶尖名校，而非拥有海外背景的专家。他曾表示：“我们的核心团队没有海外归来的人才。他们都是本土的……我们必须自己培养顶尖人才。”在人才层面，DeepSeek确实走了一条不同的路——这种纯粹中国化的身份定位在国内赢得了广泛赞誉。

DeepSeek仅用了2048张英伟达H800 GPU芯片和560万美元训练出了一个拥有6710亿参数的模型。而OpenAI和Google为训练出类似规模的模型，所投入的资源远远超过了这一水平。尽管DeepSeek在资源有限的情况之下获得了令人印象深刻的成果，然热业界人士仍认为，随着行业不断演变，DeepSeek未来在AI领域的竞争力尚待观察。与此同时，美国的竞争对手们并未止步不前。举例来说，OpenAI日前宣布了资金规模高达5000亿美元的“Stargate（星际之门）”计划——在美国AI基础设施领域投资；埃隆·马斯克的xAI也在扩展超级计算机Colossus，计划搭载超过100万块先进的GPU芯片，用于训练Grok AI模型；等等。“DeepSeek在中国拥有最大规模的高级计算集群之一，”梁文峰的商业伙伴称，“目前他们的计算能力尚足够，但这种优势不会持续太久。”

前面写道，OpenAI在2024年12月才正式面向用户发布上线完整的o1推理模型。换言之，DeepSeek R1推理模型的发布也就只比o1完整版推理模型晚了大约一个月而已。在海外社交平台上，最近几天关于DeepSeek及其推理模型R1的讨论，热度颇高，相关的贴文、评论等有很多很多。有的外国网友戏谑：DeepSeek才是OpenAI（开源AI），OpenAI是Closed AI（闭源AI）。

日前在匿名职场社区teamblind上，一位Meta公司员工发布的匿名贴子特别火——《Meta genai org in panic mode》，该贴子的中文意思是：

Meta的生成式AI团队陷入了恐慌状态。

这一切的开端是DeepSeek V3的推出，这让Llama 4在各项基准测试中全面落后。更让人雪上加霜的是，一家“未知的中国公司”用仅550万美元的预算完成了训练，直接打脸了现有的大型模型。

目前，工程师们正在疯狂拆解DeepSeek，试图复制其中的一切。我不是在夸张，事情就是这么紧迫。

管理层也在焦虑如何为生成式AI团队的高昂成本向高层交代。尤其是，当团队中每一位所谓的“领导者”拿到的薪水都远远超过了训练整个DeepSeek V3的成本，而这样的“领导者”团队却有数十人之多。

DeepSeek R1的出现让事情变得更加可怕。虽然有些信息还不能透露，但很快就会公开，到时候情况可能更加不利。

本来，这个团队应该是一个以工程为核心的小型组织，但因为一些人想借机刷存在感、抢占资源，人为地扩大了团队规模，结果反而让大家都成了输家。

就以今天的数据为例，在苹果App Store上的效率类应用排名榜上，在中国大陆地区，DeepSeek已经位居第2，直追第1名的豆包；在中国香港特区，DeepSeek位居第1，豆包降为第2名；在美国，DeepSeek排名第3，超过了第4名的谷歌Gemini，而第1名则是ChatGPT。在苹果App Store免费总榜排名上，在中国大陆地区，DeepSeek排名第24，豆包排名第2；在美国，DeepSeek排名第14，ChatGPT排名第1。可以这么说，DeepSeek在没有主动砸钱做营销推广的情况下，却在包括中国、美国等国内外地区开始“出圈”了。

分享到: QQ好友和群 QQ空间 腾讯微博 腾讯朋友

新浪微博人人网豆瓣更多...

帐号		自动登录	找回密码
密码			立即注册

国产AI模型DeepSeek R1 [复制链接]

浏览过的版块