LAMM：开源多模态大语言模型社区助力AI研究

北航、复旦、港中大（深圳）等联合推出轻量高效、支持多模态与Agent研究的开源框架

LAMM（Language-Assisted Multi-Modal）致力于构建面向开源学术社区的多模态指令微调与评测体系，涵盖优化训练框架与全面评估机制，支持图像、点云等多种视觉模态[k]。

自ChatGPT问世以来，大语言模型（LLM）在自然语言交互方面取得突破性进展。然而，现实世界中的交互不仅限于文本，还包括图像、深度信息等多模态数据。当前多数多模态大语言模型（MLLM）研究闭源，限制了高校与研究机构的探索。同时，LLM在时事理解与复杂推理方面仍显不足，缺乏“深度思考”能力。AI Agent技术正成为突破这一瓶颈的关键路径，赋予模型自主决策、环境反应与社交互动等智能特征，被视为MLLM的重要演进方向[k]。

来自北京航空航天大学、复旦大学、悉尼大学、香港中文大学（深圳）以及上海人工智能实验室的研究团队共同发布了早期开源多模态语言模型项目之一——LAMM。该项目旨在打造可持续发展的开源生态，支持MLLM训练与评测、以及基于MLLM的智能Agent研究，推动更多研究者参与多模态AI创新[k]。

项目主页：https://openlamm.github.io
代码地址：https://www.github.com/OpenGVLab/LAMM

LAMM提供低资源门槛的MLLM训练与评估方案，仅需RTX 3090或V100即可启动；支持构建基于MLLM的具身智能Agent，适用于机器人与游戏模拟器任务；并可在多个专业领域扩展应用[k]。

开源框架特性

LAMM代码库实现统一数据格式、组件化模型设计与一键式分布式训练，便于用户快速搭建专属多模态语言模型[k]。

标准化数据格式：兼容LLaVA、ShareGPT4V等主流多模态指令数据集，支持无缝接入与一键训练[k]。
模块化模型架构：将模型分解为视觉编码器、特征映射器与语言模型三大组件，支持Image、Point Cloud等输入模态及LLaMA/LLaMA2系列语言模型自由组合[k]。
低资源训练优化：集成Deepspeed、LightLLM、Flash Attention等加速技术，可在4张RTX 3090上微调7B参数模型，显著降低计算成本[k]。
支持具身智能Agent构建：结合机器人或模拟器生成任务指令数据，利用MLLM实现环境感知与决策分析[k]。