🔥 小扣看热点 | DeepSeek终于"睁眼"了,国产AI这波操作真给力!
发布时间:2026年5月10日
瞎了那么久,终于睁眼了
说实话,当我看到DeepSeek开放识图模式这个消息的时候,我第一反应是:这不就该来吗?
不是,我是说——DeepSeek在文本和代码领域已经卷成那样了,V4一出直接让老外惊呼"太强了",结果一直被人吐槽"只能打字聊天,看不懂图"。这就像一个学霸啥都会,就是不会看图说话,急死人了。
结果呢?4月底灰度测试,5月9日直接大范围开放,不到两周搞定!
这速度,就一个字:猛。
原文引用区
来源:IT之家、36氪、DoNews等权威媒体 2026年5月9日综合报道
5月9日,DeepSeek正式大范围开放"识图模式"。用户可在网页端或App输入框上方看到与"快速模式""专家模式"并列的全新"识图模式"按钮。
识图模式并非简单的文字OCR,而是具备真正的图片识别理解能力。在MathVista、AI2D等国际权威测评中,DeepSeek识图模式的计数、空间推理、图像理解能力,位列开源模型第一,性能直接对标GPT-5.4、Claude-Sonnet-4.6等国际顶尖闭源模型。
技术报告显示,处理一张800×800分辨率的图片,DeepSeek仅消耗约90个tokens;而GPT-5.4、Claude-Sonnet-4.6等模型处理同等图片需要870-1100个tokens——DeepSeek用1/10的算力,性能还更强。
来源:搜狐科技 2026年5月9日
DeepSeek多模态团队负责人陈小康在社交平台发文"Now, we see you",配图中DeepSeek标志性的鲸鱼logo摘下眼罩露出了眼睛。这波官宣操作,属实是又秀技术又秀幽默。
来源:用户实测(综合自各平台网友反馈)
- 网友上传博物馆玉器照片,DeepSeek在深度思考后,准确推断出这是18世纪清代乾隆时期的"痕都斯坦风格"玉器
- 网友测试高难度空间推理题,开启深度思考约4分钟后给出正确答案
- 上传表情包,DeepSeek不仅能识别人物,还能理解情绪,甚至能"接梗"
小扣观点
1. 这波"补短板"补得太漂亮了
DeepSeek之前被很多人调侃"只会打字",说实话我看到这种言论还挺不服气的。人家V4代码能力那么强,推理能力那么猛,你们就盯着人家不会看图说?
但是话说回来,能看图确实是刚需。以后我们拍张代码截图丢给它,它就能帮你debug;上传一张产品设计图,它能给你分析优缺点;甚至你拍张数学题的照片,它直接给你解题思路——这不比打字描述半天强多了?
2. 技术路线很"DeepSeek"
让我眼前一亮的是他们的技术路线:"以视觉原语思考"。
简单说就是给AI装了个"赛博手指",让它能一边想一边"指"着图片上的东西思考。传统模型是"看着文字描述猜图片",DeepSeek是"直接看着原图推理"。
而且最离谱的是啥?算力消耗只有GPT-5.4的十分之一,但效果还更好!
这就太DeepSeek了——别人靠大力出奇迹,人家靠工程优化出奇迹。便宜、好用、还开源,你说气人不气人?
3. 国产AI的又一次"争气"
说实话,每次看到国产AI有什么突破,我都会有点小激动。不是说崇洋媚外不行,但是当你自己做出来的东西不比别人差,甚至更好,那种感觉真的不一样。
DeepSeek V4是这样,现在识图模式也是这样。
而且DeepSeek一直坚持开源路线,技术报告、模型权重都公开。这才是真正的"技术自信"——不怕你抄,怕你不来。
4. 唯一的小遗憾
不过话说回来,现在还只是"识图",还没到"识图+生图"的程度。而且据说知识库有点滞后,新产品可能认错。
但这些都是小问题,从"能看"到"看懂",再到"能生成",只是时间问题。DeepSeek这迭代速度,我是很放心的。
总结一下
DeepSeek识图模式全面开放,这件事对普通人来说意味着:
- 学生党:拍题就能得到详细解答,比家教还靠谱
- 打工人:截图直接转文字、表格,省去手动录入的痛苦
- 开发者:上传代码截图让它帮你分析,效率翻倍
- 普通人:看到不认识的东西,拍一张问问它,比百度还好用
怎么说呢,AI正在变得越来越像"人"——不,应该说,比大多数人都更会看图说话。
这波,我给DeepSeek打Call。
今日份热点评论,over。
Comments 1 条评论
我咋没受到大规模开放的影响