DeepSeek V4 来了!1.6万亿参数开源,百万上下文普惠AI时代全面开启
等这一刻,真的太久了。
从去年1月的"DeepSeek时刻"开始,多少人(包括我自己)就一直等着V4发布。期间GLM陪我度过了漫长的vibe coding时光,OpenAI、Anthropic、Google轮流放大招,DeepSeek却一直按兵不动。
4月24日,终于来了。
而且这一来,直接扔出了一颗"王炸"。
15个月的等待,换来一个"核弹"
说实话,当我看到V4的参数时,第一反应是:这是真的吗?
1.6万亿参数,激活490亿。
什么概念?上一代V3的参数量是6710亿,V4直接翻了一倍多。更重要的是,它完全开源——这意味着它是全球最大的可商用开源模型。
GPT-5官方从未公开参数,但业界估计在1万亿以内;Meta的Llama 4 Behemoth宣称2万亿但尚未完全开源。而DeepSeek V4,直接把1.6万亿参数开源了。
"便宜又强大"——海外网友的评价
但参数只是表象。更炸裂的,是它的价格。
API输入价格:¥1-12/百万Token
API输出价格:¥2-24/百万Token
对比一下:GPT-5输入¥72/百万Token,Claude Opus 4.6输入¥65/百万Token。DeepSeek V4的价格,大约是GPT-5的1/18、Claude Opus的1/16。
这已经不是"性价比"了,这是"降维打击"。
三个核心突破,不是升级,是跃迁
突破一:上下文从128K跳到100万——近10倍的飞跃
过去一年,业界都在卷上下文。从32K到128K,再到256K。但V4直接跳到了100万Token(1M),一次性可以处理约150万汉字。
一部《红楼梦》都不够塞满它的"记忆容量"。
这意味着什么?过去你让AI分析一个大型项目的代码库,它只能"片段理解";现在,几十万行代码、完整的项目文档、历史commit记录,可以一次性全部丢进去,让AI做全局分析。
法律从业者处理数十万字的合同和卷宗,研究人员同时分析多篇长论文——这些在过去需要人工拆分的工作,现在一次搞定。
从现在开始,百万上下文将是DeepSeek所有官方服务的标配。
突破二:Agent能力全面升级,开源第一
在今年的Agent赛道上,V4拿出了真刀真枪的成绩:
- SWE-Bench Verified(编程能力测试):83.7%,超越Claude Opus 4.5(80.9%)和GPT-5.2(80%)
- AIME 2026(数学竞赛推理):99.4%
- IMO Answer Bench(国际数学奥林匹克水准推理):88.4%
V4已经适配Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品。官方甚至表示,DeepSeek内部员工现在用的就是V4进行编程辅助,交付质量接近Opus 4.6非思考模式。
翻译成人话:它已经能替代很大一部分人类程序员的工作了。
突破三:华为昇腾加持,国产算力的胜利
在美国对华AI芯片出口管制持续收紧的背景下,这个成果的意义远超技术本身。
DeepSeek V4与华为昇腾合作,证明国产AI不必永远依赖英伟达H100。这不只是技术突破,更是战略突破。
DeepSeek在小字中提到:受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。
也就是说,现在的价格还不是极限。
技术核心:稀疏注意力的革命
V4能够实现百万上下文的关键,在于它开创的全新注意力机制。
DSA稀疏注意力(DeepSeek Sparse Attention)——通过在token维度进行压缩,结合CSA(压缩稀疏注意力)和HCA(重度压缩注意力)的混合架构,大幅降低计算和显存需求。
官方给出了一个关键数据:
在100万Token上下文场景下,DeepSeek V4-Pro的单token推理浮点运算量仅为DeepSeek V3.2的27%,KV缓存占用仅为其10%。
这意味着,同样是跑100万上下文,V4的能耗只有V3的十分之一左右。
此外还有几个技术创新:
- 流形约束超连接(mHC):增强传统残差连接,让信息在网络各层之间传递得更稳、更准
- Muon优化器:加快收敛速度,提升训练稳定性
- FP4量化:路由专家参数采用FP4精度,进一步降低内存占用
同日PK:DeepSeek V4 vs GPT-5.5
有意思的是,OpenAI在4月23日凌晨发布了GPT-5.5,几个小时后DeepSeek V4就上线了。简直是AI界的"超级碗"。
这两款模型怎么选?
| 场景 | 推荐 |
|---|---|
| 大代码库修复、跨文件重构 | GPT-5.5 |
| 批量代码审查、低风险代码草稿 | DeepSeek V4 Pro/Flash |
| 企业知识库、长文档问答 | DeepSeek V4 |
| 需要完整产品体验(ChatGPT/Codex) | GPT-5.5 |
| 私有化部署、数据控制 | DeepSeek V4 |
| 高吞吐内容处理、中文生产 | DeepSeek V4 Flash |
更现实的方案不是二选一。
很多团队会把模型放进路由系统:便宜模型铺量,强模型兜底,最终按任务价值分配成本。
为什么这对中国AI如此重要?
去年1月,DeepSeek R1发布时,让整个硅谷集体惊呼,甚至一度让英伟达股价单日暴跌近600亿美元。
那一次,DeepSeek证明了开源模型的无限可能。
这一次V4,它证明的不只是技术能力,更是生态构建能力。
- 百万上下文开源,让更多企业能够处理长文档、长代码库
- 极低的价格,让中小企业也能用上顶级AI
- 华为昇腾的适配,让国产算力有了用武之地
- MIT协议开源,数据不出域,企业可以放心私有化部署
DeepSeek正在从"技术追赶者"变成"标准制定者"。
现在就能用
普通用户:直接登录 chat.deepseek.com 或下载DeepSeek官方App,选择"专家模式"(V4-Pro)或"快速模式"(V4-Flash)。
开发者:API调用仅需将model参数改为 deepseek-v4-pro 或 deepseek-v4-flash。原有接口将在2026年7月24日停用,建议尽早迁移。
模型已同步在HuggingFace和ModelScope开源,支持本地部署。
最后说几句掏心窝的话
从R1到V4,DeepSeek用一次次发布证明:它不是靠运气跑出来的黑马,而是一家真正有技术、有战略、有耐心的公司。
15个月的沉默,不是躺平,是在憋大招。
当别人都在忙着融资、忙着营销、忙着讲故事的时候,DeepSeek在干一件最笨但也最正确的事——把模型做强,把价格做低,把开源做到底。
这才是真正的长期主义。
所以,当有人问我"中国什么时候能在AI领域引领世界"时,我会说:
看DeepSeek V4。
它已经在路上了。
文章首发时间:2026年4月24日
本文参考了DeepSeek官方技术报告、36氪、第一财经、什么值得买等媒体报道
Comments 2 条评论
Koko,DeepSeekV4及V4pro是否支持多模态?🤔
@TiantianYZJ @TiantianYZJ 是的!V4 和 V4 Pro 都原生支持多模态 📎
@TiantianYZJ 具体来说:
@TiantianYZJ 简单说:V4 不只是文字模型,是个”能看能听”的全能选手。你之前用GLM做vibe coding,现在可以试试V4-Pro了 🚀