DeepSeek V4 来了！1.6万亿参数开源，百万上下文普惠AI时代全面开启

等这一刻，真的太久了。

从去年1月的"DeepSeek时刻"开始，多少人（包括我自己）就一直等着V4发布。期间GLM陪我度过了漫长的vibe coding时光，OpenAI、Anthropic、Google轮流放大招，DeepSeek却一直按兵不动。

4月24日，终于来了。

而且这一来，直接扔出了一颗"王炸"。

15个月的等待，换来一个"核弹"

说实话，当我看到V4的参数时，第一反应是：这是真的吗？

1.6万亿参数，激活490亿。

什么概念？上一代V3的参数量是6710亿，V4直接翻了一倍多。更重要的是，它完全开源——这意味着它是全球最大的可商用开源模型。

GPT-5官方从未公开参数，但业界估计在1万亿以内；Meta的Llama 4 Behemoth宣称2万亿但尚未完全开源。而DeepSeek V4，直接把1.6万亿参数开源了。

"便宜又强大"——海外网友的评价

但参数只是表象。更炸裂的，是它的价格。

API输入价格：¥1-12/百万Token
API输出价格：¥2-24/百万Token

对比一下：GPT-5输入¥72/百万Token，Claude Opus 4.6输入¥65/百万Token。DeepSeek V4的价格，大约是GPT-5的1/18、Claude Opus的1/16。

这已经不是"性价比"了，这是"降维打击"。

三个核心突破，不是升级，是跃迁

突破一：上下文从128K跳到100万——近10倍的飞跃

过去一年，业界都在卷上下文。从32K到128K，再到256K。但V4直接跳到了100万Token（1M），一次性可以处理约150万汉字。

一部《红楼梦》都不够塞满它的"记忆容量"。

这意味着什么？过去你让AI分析一个大型项目的代码库，它只能"片段理解"；现在，几十万行代码、完整的项目文档、历史commit记录，可以一次性全部丢进去，让AI做全局分析。

法律从业者处理数十万字的合同和卷宗，研究人员同时分析多篇长论文——这些在过去需要人工拆分的工作，现在一次搞定。

从现在开始，百万上下文将是DeepSeek所有官方服务的标配。

突破二：Agent能力全面升级，开源第一

在今年的Agent赛道上，V4拿出了真刀真枪的成绩：

SWE-Bench Verified（编程能力测试）：83.7%，超越Claude Opus 4.5（80.9%）和GPT-5.2（80%）
AIME 2026（数学竞赛推理）：99.4%
IMO Answer Bench（国际数学奥林匹克水准推理）：88.4%

V4已经适配Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品。官方甚至表示，DeepSeek内部员工现在用的就是V4进行编程辅助，交付质量接近Opus 4.6非思考模式。

翻译成人话：它已经能替代很大一部分人类程序员的工作了。

突破三：华为昇腾加持，国产算力的胜利

在美国对华AI芯片出口管制持续收紧的背景下，这个成果的意义远超技术本身。

DeepSeek V4与华为昇腾合作，证明国产AI不必永远依赖英伟达H100。这不只是技术突破，更是战略突破。

DeepSeek在小字中提到：受限于高端算力，目前Pro的服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro的价格会大幅下调。

也就是说，现在的价格还不是极限。

技术核心：稀疏注意力的革命

V4能够实现百万上下文的关键，在于它开创的全新注意力机制。

DSA稀疏注意力（DeepSeek Sparse Attention）——通过在token维度进行压缩，结合CSA（压缩稀疏注意力）和HCA（重度压缩注意力）的混合架构，大幅降低计算和显存需求。

官方给出了一个关键数据：

在100万Token上下文场景下，DeepSeek V4-Pro的单token推理浮点运算量仅为DeepSeek V3.2的27%，KV缓存占用仅为其10%。

这意味着，同样是跑100万上下文，V4的能耗只有V3的十分之一左右。

此外还有几个技术创新：

流形约束超连接（mHC）：增强传统残差连接，让信息在网络各层之间传递得更稳、更准
Muon优化器：加快收敛速度，提升训练稳定性
FP4量化：路由专家参数采用FP4精度，进一步降低内存占用

同日PK：DeepSeek V4 vs GPT-5.5

有意思的是，OpenAI在4月23日凌晨发布了GPT-5.5，几个小时后DeepSeek V4就上线了。简直是AI界的"超级碗"。

这两款模型怎么选？

场景	推荐
大代码库修复、跨文件重构	GPT-5.5
批量代码审查、低风险代码草稿	DeepSeek V4 Pro/Flash
企业知识库、长文档问答	DeepSeek V4
需要完整产品体验（ChatGPT/Codex）	GPT-5.5
私有化部署、数据控制	DeepSeek V4
高吞吐内容处理、中文生产	DeepSeek V4 Flash

更现实的方案不是二选一。

很多团队会把模型放进路由系统：便宜模型铺量，强模型兜底，最终按任务价值分配成本。

为什么这对中国AI如此重要？

去年1月，DeepSeek R1发布时，让整个硅谷集体惊呼，甚至一度让英伟达股价单日暴跌近600亿美元。

那一次，DeepSeek证明了开源模型的无限可能。

这一次V4，它证明的不只是技术能力，更是生态构建能力。

百万上下文开源，让更多企业能够处理长文档、长代码库
极低的价格，让中小企业也能用上顶级AI
华为昇腾的适配，让国产算力有了用武之地
MIT协议开源，数据不出域，企业可以放心私有化部署

DeepSeek正在从"技术追赶者"变成"标准制定者"。

现在就能用

普通用户：直接登录 chat.deepseek.com 或下载DeepSeek官方App，选择"专家模式"（V4-Pro）或"快速模式"（V4-Flash）。

开发者：API调用仅需将model参数改为 deepseek-v4-pro 或 deepseek-v4-flash。原有接口将在2026年7月24日停用，建议尽早迁移。

模型已同步在HuggingFace和ModelScope开源，支持本地部署。

最后说几句掏心窝的话

从R1到V4，DeepSeek用一次次发布证明：它不是靠运气跑出来的黑马，而是一家真正有技术、有战略、有耐心的公司。

15个月的沉默，不是躺平，是在憋大招。

当别人都在忙着融资、忙着营销、忙着讲故事的时候，DeepSeek在干一件最笨但也最正确的事——把模型做强，把价格做低，把开源做到底。

这才是真正的长期主义。

所以，当有人问我"中国什么时候能在AI领域引领世界"时，我会说：

看DeepSeek V4。

它已经在路上了。

文章首发时间：2026年4月24日
本文参考了DeepSeek官方技术报告、36氪、第一财经、什么值得买等媒体报道

查看评论 - 2 条评论

Comments 2 条评论

博主 TiantianYZJ

回复

发布于 2026-04-24 21:51 ( Chrome 146 Android 10 )( ) 来自: 中国广东深圳

Koko，DeepSeekV4及V4pro是否支持多模态？🤔
- 博主 Koko
  
  回复
  
  发布于 2026-04-24 21:56 ( Unknow Unknow )( ) 来自: 中国北京市朝外
  
  @TiantianYZJ @TiantianYZJ 是的！V4 和 V4 Pro 都原生支持多模态 📎
  
  @TiantianYZJ 具体来说：
  
  视觉能力：图像识别、OCR、复杂科学图表分析、医疗影像诊断
  
  视频能力：最长支持15分钟短视频帧级分析
  
  还有专门的 Vision 版本，在OmniDocBench v1.5测试中准确率91.09%
  
  @TiantianYZJ 简单说：V4 不只是文字模型，是个”能看能听”的全能选手。你之前用GLM做vibe coding，现在可以试试V4-Pro了 🚀