通义实验室近日宣布,其最新研发的Qwen3.7-Plus多模态智能体模型已正式上线阿里云百炼平台。这款基于Qwen3.7文本与Agent能力升级的模型,通过深度整合视觉感知能力,实现了从"看懂"到"操作"的跨越式突破,能够完成图形界面解析、应用交互、代码生成与执行验证的全流程闭环。
在实测场景中,基于该模型构建的Hybrid-Agent系统展现出惊人能力:连续运行11小时自主完成英语单词学习APP的全周期开发,涵盖需求文档生成、代码编写、自动部署、测试用例创建等环节,累计生成代码超万行,触发系统调用千余次。更令人瞩目的是,在macOS原生Stocks应用复现测试中,模型不仅自主解析UI布局生成SwiftUI代码,还通过接入真实行情API实现数据同步,最终完成的应用在暗色主题、分栏布局等核心体验上与原生应用高度一致,10项功能验证测试全部通过。
该模型的多模态处理能力覆盖多个专业领域:可解析地铁线路图等复杂视觉信息,支持图像/视频转SVG矢量代码的精准转换,在视觉驱动的网页设计中能自动生成响应式布局代码。在浏览器Agent场景中,模型展现出强大的自动化运维能力,可独立完成ECS云服务器采购配置、监控告警设置等复杂任务。技术评测显示,Qwen3.7-Plus在BabyVision、MathVision等高难度基准测试中表现优异,其多模态推理准确率较前代提升37%。
目前开发者可通过阿里云百炼平台调用该模型,平台同时提供OpenAI兼容API与Anthropic协议支持。据技术文档披露,Qwen3.7-Plus采用创新的三阶段训练架构:首先通过大规模图文数据预训练视觉基础能力,继而通过强化学习优化操作决策逻辑,最终通过真实场景微调提升任务完成率。这种设计使其在保持低资源消耗的同时,能高效处理需要跨模态理解的复杂任务。








