DeepSeek“视觉进化”：识图模式上线，开启AI图文交互新篇章-企业动态-贝尔财经

国产大模型DeepSeek近期完成了一次重要升级，其“识图模式”从内测阶段快速推进至大范围开放，标志着该模型正式迈入图文交互的新阶段。这一变化始于4月下旬，当时部分用户在其网页端和移动应用中发现新增了“识图模式”入口，与原有的“快速模式”“专家模式”并列显示。尽管系统当时标注为“图片理解功能内测中”，但已有用户通过上传食品包装、概念设计图等素材进行测试，发现模型能够准确识别品牌信息、成分列表及设计特征，并给出针对性建议。

技术团队负责人陈小康在社交平台发布的“Now，we see you”配图引发广泛关注。图中DeepSeek标志性的鲸鱼形象摘下眼罩，露出眼睛的细节被解读为官方对多模态能力上线的隐喻。这种视觉化表达与模型升级形成呼应，随后在5月9日，更多用户获得功能访问权限，输入框上方的独立入口清晰可见，系统虽仍标注“内测中”，但实际使用范围已大幅扩展。

与传统OCR识别不同，DeepSeek的视觉能力基于多模态理解架构。其技术论文《Thinking with Visual Primitives》揭示了核心突破：模型在推理过程中将空间坐标信息嵌入思维链，而非简单附加标注。这种“边思考边指向”的机制，使模型能像人类用手指确认物体般消除歧义。例如在处理散落硬币计数任务时，系统通过关联语言描述与具体坐标，将准确率提升至89.2%，超越同类模型。技术数据显示，该架构对756×756图片的压缩效率达7056倍，处理后仅需81个视觉单元，远低于Claude Sonnet 4.6的870个。

实际测试中，用户上传街景照片后，模型无需联网即可识别建筑名称，并调用内置知识库进行验证。面对迷宫导航任务，系统采用反向推理策略，从终点逐步回溯路径，经过四次复核才给出答案，整个推理过程首次以可视化形式呈现。在网页设计测试中，模型能解析截图布局并生成可运行的代码原型，这种“所见即所得”的交互方式，被设计师评价为大幅缩短了创意验证周期。

此次升级反映了国产大模型竞争焦点的转变。从单纯比拼文本生成到融合多感官信息处理，DeepSeek通过将视觉能力与推理引擎深度整合，开辟了差异化发展路径。企业级应用已率先落地，某政务平台利用该功能自动解析用户上传的证件照片，理赔处理效率提升40%；医疗领域则实现影像学报告与问诊语音的联合分析，辅助诊断准确率提高至92%。

客户端界面显示，“视觉”选项已与“快速”“专家”模式并列，这为即将推出的完整版V4模型预留了接口。据内部人士透露，新版本将进一步优化视觉压缩算法，并支持动态视频理解。当前测试数据显示，模型在处理30帧/秒视频时，内存占用较前代降低65%，这为实时交互场景的应用奠定了基础。随着多模态能力成为行业标配，AI技术的实用化进程正在加速，而DeepSeek的工程化思维为其赢得了市场先机。