阿里巴巴多模态模型升级！推出了 Qwen-VL-Plus 和 Qwen-VL-Max 两个增强版本！

软积木

2024-02-01

导读：最近，阿里巴巴 Qwen-VL 系列进行了重大升级，推出了 Qwen-VL-Plus 和 Qwen-VL-Max 两个增强版本。

最近，阿里巴巴 Qwen-VL 系列进行了重大升级，推出了 Qwen-VL-Plus 和 Qwen-VL-Max 两个增强版本。

新技术如下：

这些版本的主要技术进步包括：

大幅提升与图像相关的推理能力;
在识别、提取和分析其中包含的图像和文本中的细节方面有相当大的改进;
支持分辨率超过100万像素的高清图像和各种纵横比的图像。

Qwen-VL 测评

值得注意的是，Qwen-VL-Max 在中文问答和中文文本理解方面的表现优于 OpenAI 的 GPT-4V 和谷歌的 Gemini。

新版本的 Qwen-VL-Plus 和 Qwen-VL-Max 模型不仅表现出卓越的基准性能，而且在实际场景中解决问题的能力也得到了显著提高。

基本识别能力

最新的 Qwen-VL 模型现在更擅长准确描述和识别图像中的复杂信息，以及提供详细的背景和回答相关问题。

例如，Qwen-VL不仅可以识别常见的物体，还可以识别名人和地标。Qwen-VL可以受视觉启发，用各种语言写诗，并分析日常截图。

提问下图 “他们是谁？”，Qwen-VL 会给出答案：这些是世界上最著名和收入最高的名人。从左到右，从上到下：贾斯汀·比伯（加拿大歌手）、莱昂内尔·梅西（阿根廷足球运动员）、克里斯蒂亚诺·罗纳尔多（葡萄牙足球运动员）......

名人识别

视觉代理能力

除了在描述和识别方面的基本功能外，Qwen-VL 还具有精确定位和查询特定元素的能力。

例如，它可以准确地突出图像中的黑色汽车。

找到红色汽车

Qwen-VL：红色汽车位于图像的右下角

文本信息识别与处理

Qwen-VL-Plus/Max 现在可以有效地从表格和文档中提取信息，并重新格式化这些信息以满足自定义输出要求。

此外，它还具有识别和转换密集文本的有效机制，这在处理包含大量信息的文档时非常有效。

如下图：请阅读此图像中的文本，并以以下JSON格式返回信息（注意xxx是占位符，如果图像中没有信息，请改为“N/A”）。{“class”：xxx， “DLN”：xxx， “DOB”：xxx， “Name”：xxx， “Address”：xxx， “EXP”：xxx， “ISS”：xxX， “”：xxx， “HGT”：xxx， “WGT”：xxx， “EYES”：xxx， “HAIR”：xxX， “DONOR”：xxx}

Qwen-VL：

{“class”: “C”, “DLN”: “I1234568”, “DOB”: “08/31/1977”, “Name”: “IMA CARDHOLDER”, “Address”: “2570 24TH STREET ANYTOWN, CA 95818”, “EXP”: “08/31/2014”, “ISS”: “08/31/2009”, “SEX”: “F”, “HGT”: “5’-05"”, “WGT”: “125 lb”, “EYES”: “BRN”, “HAIR”: “BRN”, “DONOR”: “YES”}

{“class”：“C”， “DLN”：“I1234568”， “DOB”：“08/31/1977”， “Name”：“IMA CARDHOLDER”， “Address”：“2570 24TH STREET ANYTOWN， CA 95818”， “EXP”：“08/31/2014”， “ISS”：“08/31/2009”， “”：“F”， “HGT”：“5'-05”“， ”WGT“：”125 lb“， ”EYES“：”BRN“， ”HAIR“：”BRN“， ”DONOR“：”YES“}

Qwen-VL-Plus 和 Qwen-VL-Max 在增强高分辨率识别、文本分析和图像推理能力方面取得了重大进展。

这些模型现在与 GPT4-v 和 Gemini 的性能相匹配，在许多任务（例如 MMMU、CMMMU 和 MathVista）中优于其他开源和专有模型。

END

ChatU.AI可免费申请试用，支持企业私有部署，多引擎AIGC操作系统安全稳定，点击下方公众号一键试用！

【声明】内容源于网络

软积木

🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网：https://www.CubixAI.com 📮商务合作：BD@cubixai.com

内容 157

粉丝 0

软积木 🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网：https://www.CubixAI.com 📮商务合作：BD@cubixai.com

总阅读92

粉丝0

内容157