
新技术如下:
这些版本的主要技术进步包括:
-
大幅提升与图像相关的推理能力; -
在识别、提取和分析其中包含的图像和文本中的细节方面有相当大的改进; -
支持分辨率超过100万像素的高清图像和各种纵横比的图像。
Qwen-VL 测评

基本识别能力
例如,Qwen-VL不仅可以识别常见的物体,还可以识别名人和地标。Qwen-VL可以受视觉启发,用各种语言写诗,并分析日常截图。
提问下图 “他们是谁?”,Qwen-VL 会给出答案:这些是世界上最著名和收入最高的名人。从左到右,从上到下:贾斯汀·比伯(加拿大歌手)、莱昂内尔·梅西(阿根廷足球运动员)、克里斯蒂亚诺·罗纳尔多(葡萄牙足球运动员)......
名人识别
视觉代理能力
找到红色汽车
文本信息识别与处理
此外,它还具有识别和转换密集文本的有效机制,这在处理包含大量信息的文档时非常有效。
如下图:请阅读此图像中的文本,并以以下JSON格式返回信息(注意xxx是占位符,如果图像中没有信息,请改为“N/A”)。{“class”:xxx, “DLN”:xxx, “DOB”:xxx, “Name”:xxx, “Address”:xxx, “EXP”:xxx, “ISS”:xxX, “”:xxx, “HGT”:xxx, “WGT”:xxx, “EYES”:xxx, “HAIR”:xxX, “DONOR”:xxx}
Qwen-VL:
{“class”: “C”, “DLN”: “I1234568”, “DOB”: “08/31/1977”, “Name”: “IMA CARDHOLDER”, “Address”: “2570 24TH STREET ANYTOWN, CA 95818”, “EXP”: “08/31/2014”, “ISS”: “08/31/2009”, “SEX”: “F”, “HGT”: “5’-05"”, “WGT”: “125 lb”, “EYES”: “BRN”, “HAIR”: “BRN”, “DONOR”: “YES”}
{“class”:“C”, “DLN”:“I1234568”, “DOB”:“08/31/1977”, “Name”:“IMA CARDHOLDER”, “Address”:“2570 24TH STREET ANYTOWN, CA 95818”, “EXP”:“08/31/2014”, “ISS”:“08/31/2009”, “”:“F”, “HGT”:“5'-05”“, ”WGT“:”125 lb“, ”EYES“:”BRN“, ”HAIR“:”BRN“, ”DONOR“:”YES“}
Qwen-VL-Plus 和 Qwen-VL-Max 在增强高分辨率识别、文本分析和图像推理能力方面取得了重大进展。
这些模型现在与 GPT4-v 和 Gemini 的性能相匹配,在许多任务(例如 MMMU、CMMMU 和 MathVista)中优于其他开源和专有模型。
ChatU.AI可免费申请试用,支持企业私有部署,多引擎AIGC操作系统安全稳定,点击下方公众号一键试用!

