大数跨境
0
0

智谱AI和清华大学上线CogVLM双语版!具有丰富的图表和文档理解功能!

智谱AI和清华大学上线CogVLM双语版!具有丰富的图表和文档理解功能! 软积木
2023-11-13
0
导读:CogVLM 模型由四个基本组件组成:视觉转换器 (ViT) 编码器、MLP 适配器、预训练大型语言模型 (GPT) 和视觉专家模块。
CogVLM 是一个强大的开源视觉语言模型,CogVLM-17B 具有 100 亿个视觉参数和 70 亿个语言参数。论文地址:
https://arxiv.org/abs/2311.03079
CogVLM 模型由四个基本组件组成:视觉转换器 (ViT) 编码器、MLP 适配器、预训练大型语言模型 (GPT) 和视觉专家模块。

CogVLM 在各种多模式任务上的性能

01

主要性能

CogVLM-17B 在 10 个经典的跨模态基准测试中表现不错,包括 NoCaps、Flicker30k 字幕、RefCOCO等,并且在 VQAv2、OKVQA、TextVQA、COCO 字幕等方面排名第二,超越或匹配 PaLI-X 55B。

CogVLM可以准确地详细描述图像

LLAVA-1.5 和 MiniGPT-4 进行比较

可以理解和回答各种类型的问题

CogVLM问答页面

有时捕获的内容比 GPT-4V更详细

CogVLM图像识别

02

安装

CogVLM支持两种用于模型推理的 GUI,即 Web 演示和 CLI,如果用户想在 python 代码中使用它,可以很容易地根据自己的情况修改 CLI 脚本。


首先,需要安装依赖项:

pip install -r requirements.txtpython -m spacy download en_core_web_sm
硬件要求:
  • 模型推理:1 * A100(80G)或2 * RTX 3090(24G)

  • 微调:4 * A100(80G)[推荐]或8 * RTX 3090(24G)

不同下游任务开源不同的检查点:

  • cogvlm-chat SFT 之后的模型用于对齐,支持像 GPT-4V 一样的聊天。

  • cogvlm-base-224 文本图像预训练后的原始检查点。

  • cogvlm-base-490 分辨率的 490px 微调版本。 cogvlm-base-224 微调数据包括VQA数据集的训练集。

  • cogvlm-grounding-generalist 。该检查点支持不同的视觉接地任务,例如 REC、接地字幕等。

03

微调

1. 首先下载 Captcha 图像数据集。下载后,提取 ZIP 文件的内容。
2. 要以 80/5/15 的比率创建训练/验证/测试拆分,请执行以下命令:
python scripts/split_dataset.py
3. 使用以下命令启动微调过程:

bash scripts/finetune_(224/490)_lora.sh

4. 将模型合并为 model_parallel_size=1 :(将下面的 4 替换为用户训练 MP_SIZE )

torchrun --standalone --nnodes=1 --nproc-per-node=4 merge_model.py --version base --bf16 --from_pretrained ./checkpoints/merged_lora_(224/490)

5. 评估模型的性能

bash scripts/evaluate_(224/490).sh

END 


ChatU.AI可免费申请试用,支持企业私有部署,多引擎AIGC操作系统安全稳定,点击下方公众号一键试用!


【声明】内容源于网络
0
0
软积木
🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网:https://www.CubixAI.com 📮商务合作:BD@cubixai.com
内容 157
粉丝 0
软积木 🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网:https://www.CubixAI.com 📮商务合作:BD@cubixai.com
总阅读14
粉丝0
内容157