

智谱AI和清华大学上线CogVLM双语版！具有丰富的图表和文档理解功能！

软积木

2023-11-13

导读：CogVLM 模型由四个基本组件组成：视觉转换器（ViT）编码器、MLP 适配器、预训练大型语言模型（GPT）和视觉专家模块。

CogVLM 是一个强大的开源视觉语言模型，CogVLM-17B 具有 100 亿个视觉参数和 70 亿个语言参数。论文地址：

https://arxiv.org/abs/2311.03079

CogVLM 模型由四个基本组件组成：视觉转换器（ViT）编码器、MLP 适配器、预训练大型语言模型（GPT）和视觉专家模块。

CogVLM 在各种多模式任务上的性能

主要性能

CogVLM-17B 在 10 个经典的跨模态基准测试中表现不错，包括 NoCaps、Flicker30k 字幕、RefCOCO等，并且在 VQAv2、OKVQA、TextVQA、COCO 字幕等方面排名第二，超越或匹配 PaLI-X 55B。

CogVLM可以准确地详细描述图像

LLAVA-1.5 和 MiniGPT-4 进行比较

可以理解和回答各种类型的问题

CogVLM问答页面

有时捕获的内容比 GPT-4V更详细

CogVLM图像识别

安装

CogVLM支持两种用于模型推理的 GUI，即 Web 演示和 CLI，如果用户想在 python 代码中使用它，可以很容易地根据自己的情况修改 CLI 脚本。

pip install -r requirements.txtpython -m spacy download en_core_web_sm

硬件要求：

不同下游任务开源不同的检查点：

微调

1. 首先下载 Captcha 图像数据集。下载后，提取 ZIP 文件的内容。

2. 要以 80/5/15 的比率创建训练/验证/测试拆分，请执行以下命令：

python scripts/split_dataset.py

3. 使用以下命令启动微调过程：

bash scripts/finetune_(224/490)_lora.sh

torchrun --standalone --nnodes=1 --nproc-per-node=4 merge_model.py --version base --bf16 --from_pretrained ./checkpoints/merged_lora_(224/490)

5. 评估模型的性能

bash scripts/evaluate_(224/490).sh

【声明】内容源于网络

软积木

🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网：https://www.CubixAI.com 📮商务合作：BD@cubixai.com

内容 157

粉丝 0

软积木 🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网：https://www.CubixAI.com 📮商务合作：BD@cubixai.com

总阅读14

粉丝0

内容157