引言

3月28日消息,凌晨三点,阿里在X上发布视觉推理模型QVQ-Max。

什么是视觉推理?

传统AI模型多基于文字输入处理任务。但现实里图片、图表、视频等非文字信息常见,像建筑图纸,其包含的颜色、形状、位置关系等细节,靠文字描述判断合理性较难,而结合专业知识看图纸分析就容易些。

视觉推理就是让AI具备像人一样“看”懂这些非文字信息的能力,不仅能识别画面元素,还能理解元素间关系并思考,像分析建筑图纸是否合理。

QVQ - Max的设计目标是成为既“眼尖”(能敏锐捕捉画面各种信息)又“脑快”(快速理解分析信息并思考应对)的助手,从而解决如建筑图纸评估等各种实际问题。

核心能力

QVQ-Max的能力可以总结为三个方面:细致观察、深入推理和灵活应用。

  1. 细致观察:抓住每一个细节
    QVQ-Max 对图片的解析能力非常强,无论是复杂的图表还是日常生活中随手拍的照片,它都能快速识别出关键元素。比如,它可以告诉你一张照片里有哪些物品、有什么文字标识,甚至还能指出一些你可能忽略的小细节。
  2. 深入推理:不只是“看到”,还要“想到”
    仅仅识别出图片里的内容还不够,QVQ-Max 还能进一步分析这些信息,并结合背景知识得出结论。例如,在一道几何题中,它可以根据题目附带的图形推导出答案;在一段视频里,它能根据画面内容推测出接下来可能发生的情节。
  3. 灵活应用:从解答问题到创作
    除了分析和推理,QVQ-Max 还能做一些有趣的事情,比如帮你设计插画、生成短视频脚本,甚至根据你的需求创作角色扮演的内容。如果你上传一幅草稿,它可能会帮你完善成一幅完整的作品;上传一个日常照片,它可以化身犀利的评论家,占卜师。

未来计划

目前的 QVQ-Max 只是第一版,还有很多可以提升的空间。接下来,通义千问团队会重点关注以下几个方向:

  1. 更准确地观察:通过视觉内容的校验,如grounding来检查观察内容的准确性提高识别能力。
  2. 视觉Agent:提升模型在处理多步和更复杂的任务,如手机电脑操控,玩游戏。
  3. 更好的交互:让模型在思考和交互中不局限于文字,还可以涵盖更多的模态,比如工具校验,视觉生成等。

总结

QVQ-Max 是一款既有“眼力”又有“脑力”的视觉推理模型。它不仅能识别图片里的内容,还能结合这些信息进行分析和推理,甚至完成一些创造性的任务。