ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek“视觉进化”:识图模式上线,开启AI图文交互新篇章

时间:2026-05-09 21:32:07来源:ITBEAR编辑:快讯

国产大模型DeepSeek近期完成了一次重要升级,其“识图模式”从内测阶段快速推进至大范围开放,标志着该模型正式迈入图文交互的新阶段。这一变化始于4月下旬,当时部分用户在其网页端和移动应用中发现新增了“识图模式”入口,与原有的“快速模式”“专家模式”并列显示。尽管系统当时标注为“图片理解功能内测中”,但已有用户通过上传食品包装、概念设计图等素材进行测试,发现模型能够准确识别品牌信息、成分列表及设计特征,并给出针对性建议。

技术团队负责人陈小康在社交平台发布的“Now,we see you”配图引发广泛关注。图中DeepSeek标志性的鲸鱼形象摘下眼罩,露出眼睛的细节被解读为官方对多模态能力上线的隐喻。这种视觉化表达与模型升级形成呼应,随后在5月9日,更多用户获得功能访问权限,输入框上方的独立入口清晰可见,系统虽仍标注“内测中”,但实际使用范围已大幅扩展。

与传统OCR识别不同,DeepSeek的视觉能力基于多模态理解架构。其技术论文《Thinking with Visual Primitives》揭示了核心突破:模型在推理过程中将空间坐标信息嵌入思维链,而非简单附加标注。这种“边思考边指向”的机制,使模型能像人类用手指确认物体般消除歧义。例如在处理散落硬币计数任务时,系统通过关联语言描述与具体坐标,将准确率提升至89.2%,超越同类模型。技术数据显示,该架构对756×756图片的压缩效率达7056倍,处理后仅需81个视觉单元,远低于Claude Sonnet 4.6的870个。

实际测试中,用户上传街景照片后,模型无需联网即可识别建筑名称,并调用内置知识库进行验证。面对迷宫导航任务,系统采用反向推理策略,从终点逐步回溯路径,经过四次复核才给出答案,整个推理过程首次以可视化形式呈现。在网页设计测试中,模型能解析截图布局并生成可运行的代码原型,这种“所见即所得”的交互方式,被设计师评价为大幅缩短了创意验证周期。

此次升级反映了国产大模型竞争焦点的转变。从单纯比拼文本生成到融合多感官信息处理,DeepSeek通过将视觉能力与推理引擎深度整合,开辟了差异化发展路径。企业级应用已率先落地,某政务平台利用该功能自动解析用户上传的证件照片,理赔处理效率提升40%;医疗领域则实现影像学报告与问诊语音的联合分析,辅助诊断准确率提高至92%。

客户端界面显示,“视觉”选项已与“快速”“专家”模式并列,这为即将推出的完整版V4模型预留了接口。据内部人士透露,新版本将进一步优化视觉压缩算法,并支持动态视频理解。当前测试数据显示,模型在处理30帧/秒视频时,内存占用较前代降低65%,这为实时交互场景的应用奠定了基础。随着多模态能力成为行业标配,AI技术的实用化进程正在加速,而DeepSeek的工程化思维为其赢得了市场先机。

更多热门内容