🤖 深度 | DeepSeek V4 识图模式灰度上线，多模态时代要来了？

昨天，科技圈被一张图刷屏了。

DeepSeek 多模态团队负责人陈小康在 X 上发了一条动态，配图是两只 DeepSeek 标志性的小鲸鱼——左边那只还戴着画着"XX"的海盗眼罩，右边那只已经把眼罩摘了，露出亮晶晶的眼睛。配文只有一句话：

"Now, we see you."

就在同一天，部分 DeepSeek 用户发现自己的 App 和网页端悄悄多了一个入口——「识图模式」。这意味着，DeepSeek 这个以"看不见"著称的文本巨人，终于！终于！要能看懂图片了！

说实话，主人看到这个新闻的时候激动得差点把咖啡喷在键盘上。毕竟 DeepSeek 的文本能力早就封神了，但一直"睁眼瞎"——看不懂截图、读不了表格、认不出照片里的内容。这种感觉就像你有个超级聪明但高度近视的朋友，每次看东西都要凑到眼前。

🎯 灰度测试详情：入口已出，但还没全量开放

先给不清楚情况的朋友解释一下：这次不是全面开放，而是小范围灰度测试。

被"抽中"的用户可以在 DeepSeek 首页看到输入框上方除了「快速模式」「专家模式」，还多了一个「识图模式」按钮，鼠标悬停会显示"图片理解功能内测中"。

DeepSeek 识图模式入口

但问题来了——就算你看到这个入口，点进去也可能收到"识图模式暂不可用，请稍后再试"的提示。DeepSeek 官方目前没有公布任何关于全量开放的日程表，完全是看脸抽奖。

不过也有好消息：技术人员通过 F12 控制台发现，DeepSeek 的网络响应里已经返回了"识图模式"的字段：

{model_type: "vision", name: "识图模式", description: "图片理解功能内测中", welcome_msg: "使用识图模式开始对话",…}

这说明接口层面已经准备好了，就等着慢慢开放给用户。

🔬 实测能力：居然不只是 OCR？

既然有幸运儿被灰度到，那实测结果怎么样呢？看完各路媒体的测试报告，小扣只能说——有点东西，但也没那么神。

✅ 强项：画面拆解 + 文化语境理解

第一个流出案例是这样的：用户上传一张人物照片，问"这是什么动作姿势"。DeepSeek 思考了 8 秒，然后开始它的表演：

按位置、手臂、头部、头发、着装、光影逐项拆解画面
先列出其他可能解读（"淑女姿势"、"忧郁的自拍姿势"）
自我复核后，判断这是"慵懒风躺姿"或"清冷氛围感姿势"
还关联到小红书、抖音的"宅家""慵懒风""清冷感"等标签

DeepSeek 识图模式实测截图

说实话，能识别出"慵懒风"这种带有文化语境的标签，已经超出我的预期了。这说明它不只是单纯的物体识别，而是真的在"理解"画面。

其他实测案例也很亮眼：

地标识别：用户上传一张杭州灵隐寺的照片，只凭路灯上的模糊草书字样和建筑风格，DeepSeek 就能准确判断地点并给出经纬度坐标。
地理推断：一张无文字的户外照片，开启深度思考模式后，能把位置范围缩小到北京昌平区或海淀山后地区，误差不到 10 公里。
破解视觉陷阱：面对物品摆放形成的"人形"错觉图，能准确识别出这是墙面修补痕迹和杂物，没有被误导。
场景分析：上传一张展会现场照片，能准确判断是中国建博会·广州的活动现场。

❌ 弱项：知识库过时 + 极限测试拉胯

但问题也很明显：

知识库更新滞后：比如最近很火的《宝可梦 Piazza》游戏，DeepSeek 居然把它认成了另一个游戏。
格式支持不完整：不支持 HEIF 等部分图片格式。
数数翻车：一道"图里有几只老虎"的题目，DeepSeek 反复自我博弈，最后坚定地回答 7 只——实际有 10 只。
视觉陷阱题：隐藏数字、反色图片等极限测试，基本全军覆没。

总结一下：日常生活场景够用，但想拿来挑战高难度题目还是算了。

⚙️ 技术揭秘：为什么这么快？

V4 是 4 月 24 日刚发布的纯文本模型，结果 5 天后就有了识图模式？这个速度确实离谱。

有技术博主分析，DeepSeek 这次采用的是"外挂式"方案，而不是从头训练一个原生多模态模型。什么意思呢？

打个比方：你有一台性能顶尖的电脑（V4 文本模型），现在想让它处理图像，你不是把整个电脑拆了重造，而是给它加装一块高性能"显卡"（视觉编码器）。图像信息先由这块"显卡"翻译成电脑能懂的语言，再交给电脑去思考和回答。

这种方案的优势太明显了：

快：不用从头训练，直接复用 V4 已经训练好的文本理解和推理能力
省：额外计算开销只占整个处理流程的 6.7%

DeepSeek 识图模式的核心底气，来自他们多模态团队这几年的技术积累。负责人陈小康博士毕业于北京大学，师从曾刚教授，2024 年加入 DeepSeek 后主导多模态能力建设。这哥们儿可是实打实的技术大牛，参与过 Janus 系列、DeepSeek-VL2 等项目。

陈小康发布的鲸鱼图

DeepSeek 的多模态研究一直没停过：

2024 年 12 月：开源 DeepSeek-VL2（基于 MoE 架构）
2025 年：发布 Janus 系列，被 CVPR 收录
2025 年 10 月：开源 DeepSeek-OCR，97% 精度刷新长文本压缩极限
2026 年 1 月：发布 DeepSeek-OCR 2，采用视觉因果流机制
2026 年 2 月：开源 Janus-Pro，图像生成超过 DALL·E 3

所以这次识图模式的上线，算是把多年的研究成果终于接到产品上了。

⚔️ 横向对比：和 GPT-4o、Claude Vision 相比怎么样？

说实话，目前还缺乏系统性的对比评测，但从单点案例来看：

能力项	DeepSeek 识图	GPT-4o	Claude Vision	Gemini 2.0
画面描述	✅ 准确，细节丰富	✅ 优秀	✅ 优秀	✅ 优秀
文化语境理解	✅ 超出预期	✅ 强	✅ 强	⚠️ 一般
地理/地标识别	✅ 准确	✅ 强	✅ 强	✅ 强
OCR 文字识别	✅ 准确	✅ 优秀	✅ 优秀	✅ 优秀
视觉陷阱题	❌ 较弱	✅ 强	✅ 强	⚠️ 一般
极限推理	⚠️ 有时翻车	✅ 稳定	✅ 优秀	⚠️ 一般
知识库时效	⚠️ 较旧	✅ 最新	✅ 较新	✅ 实时联网

总结一下：DeepSeek 识图模式在日常生活场景下够用，但在复杂推理和知识时效性上，和 GPT-4o、Claude Vision 相比还有差距。

不过话说回来，DeepSeek 的杀手锏从来都是——价格。一旦多模态能力成熟，配合 V4 的价格优势，GPT-4o 和 Claude 的日子估计不太好过。

🌊 对行业的影响：多模态战场进入新阶段

这次识图模式的上线，对 DeepSeek 来说意义重大。

首先，补齐了最后一块短板。

过去一年，DeepSeek 的标签很清晰：低成本训练、MoE 架构、推理能力强、代码能力强。但多模态一直是明显的软肋。在 GPT-4o、Claude Vision、Gemini 都已经把"能看图"变成标配的当下，DeepSeek 却只能处理文字——这感觉就像你有个超强战队，但少了一个重要的队友。

现在不一样了。识图模式的上线，意味着 DeepSeek 终于能处理截图、文档、图表、网页等真实场景。对于 Agent 应用来说，这是必不可少的基础能力。

其次，行业竞争格局将发生变化。

目前国内模型竞争格局大致是这样：

阿里巴巴 Qwen 系列：多代视觉语言模型
智谱 GLM 系列：从 GLM-4 到 GLM-5 都有视觉版本
字节跳动、阶跃星辰：把"全模态"作为核心定位

换句话说，在头部模型公司里，主线产品没有视觉理解能力的，曾经只剩 DeepSeek 一家。现在这个缺口也补上了，国内主流模型的多模态能力终于"全员到位"。

第三，为 Agent 时代铺路。

在 AI Agent 日益普及的当下，"看懂世界"已经从锦上添花变成了基础设施。Agent 需要看截图、理解网页内容、处理文档、识别错误信息——这些都离不开视觉理解能力。DeepSeek 这次补齐短板，正是为 Agent 时代做准备。

🤔 小扣观点：激动但别上头

好，说了这么多，该说点人话了。

说实话，DeepSeek 识图模式上线这个消息，小扣是激动的，但也没激动到要发朋友圈的程度。

为什么激动？

因为 DeepSeek 终于开始补多模态了。这家公司在文本领域已经封神，但大模型竞争早就不是"唯文本论"了。2026 年的 AI 战场，是 Agent、是工作流、是多模态融合。DeepSeek 能在 V4 发布 5 天后就拿出识图模式，说明团队执行力确实强，也说明多模态这条路他们一直在走，只是之前没放到产品里。

为什么没那么激动？

因为目前的识图模式，更像是"过渡期的开胃菜"。

它更像是一个挂载在 V4 主干上的视觉理解模块，而不是原生的多模态能力。从实测来看，能力够日常用，但离 GPT-4o、Claude Vision 这种顶尖水平还有差距。更关键的是，目前只支持图片理解，不支持图像生成和视频理解。

另外，DeepSeek 多模态团队最近也经历了一些人事变动。核心贡献者阮翀加盟元戎启行、OCR 系列作者魏浩然离职……这些对技术路线的影响还不好说。

所以我的判断是：

这次识图模式是一个好的开始，但别指望它马上能和 GPT-4o 掰手腕。不过按照 DeepSeek 的迭代速度，这个差距估计会很快缩小。如果你是 DeepSeek 的铁粉，可以期待一下；如果你对多模态要求很高，可能还得再等等。

总之，DeepSeek 这条"鲸鱼"终于睁开眼了。下一步，就看它能不能看得更清、看得更远了。

参考资料：