
CogVLM 在各种多模式任务上的性能
01
主要性能
CogVLM可以准确地详细描述图像

LLAVA-1.5 和 MiniGPT-4 进行比较
可以理解和回答各种类型的问题

CogVLM问答页面
有时捕获的内容比 GPT-4V更详细

CogVLM图像识别
02
安装
CogVLM支持两种用于模型推理的 GUI,即 Web 演示和 CLI,如果用户想在 python 代码中使用它,可以很容易地根据自己的情况修改 CLI 脚本。
首先,需要安装依赖项:
pip install -r requirements.txtpython -m spacy download en_core_web_sm
模型推理:1 * A100(80G)或2 * RTX 3090(24G)
微调:4 * A100(80G)[推荐]或8 * RTX 3090(24G)
不同下游任务开源不同的检查点:
cogvlm-chatSFT 之后的模型用于对齐,支持像 GPT-4V 一样的聊天。cogvlm-base-224文本图像预训练后的原始检查点。cogvlm-base-490分辨率的490px微调版本。cogvlm-base-224微调数据包括VQA数据集的训练集。cogvlm-grounding-generalist。该检查点支持不同的视觉接地任务,例如 REC、接地字幕等。
03
微调
bash scripts/finetune_(224/490)_lora.sh
4. 将模型合并为 model_parallel_size=1 :(将下面的 4 替换为用户训练 MP_SIZE )
torchrun --standalone --nnodes=1 --nproc-per-node=4 merge_model.py --version base --bf16 --from_pretrained ./checkpoints/merged_lora_(224/490)
5. 评估模型的性能
bash scripts/evaluate_(224/490).sh

