>

多模态方向开源数据集资源汇总

>

0

0



多模态方向开源数据集资源汇总

多模态方向开源数据集资源汇总

极市平台

2025-06-03

4

↑ 点击蓝字关注极市平台

编辑丨极市平台

CLEVR 多模态(Multimodal)

下载链接：http://eu5bx.ensl.cn/4f

合成的图像问答数据集，专注于测试模型的推理能力，如计数、比较、逻辑关系等。

Visual Genome

下载链接：http://eu5ba.ensl.cn/ad

Visual Genome 是一个数据集、一个知识库，是将结构化图像概念与语言联系起来的持续努力。

108,077 Images 108,077 张图片
540 万个区域描述
170 万个视觉问答
380 万个对象实例
280 万个属性
230 万个关系
映射到 Wordnet Synset 的所有内容

Pangea

下载链接：http://eu5bd.ensl.cn/9c

Pangea-7B，这是一种完全开放的多语言多模态语言模型（MLLM），旨在弥合视觉理解任务中的多语言和多文化差距。 Pangea-7B 在 PangeaIns 上进行训练，PangeaIns 是一个跨越 39 种语言的多样化 6M 指令数据集。 Pangea-7B 在 PangeaBench 上进行评估，PangeaBench 是一个整体评估套件，包含 14 个数据集，涵盖 47 种语言。

MultiCaRe

下载链接：http://eu5be.ensl.cn/36

是一个开源临床病例数据集，用于医学图像分类和多模态 AI 应用程序：

它包含来自 PubMed Central 的超过 72K 病例报告的开放访问和去标识化数据，总结了超过 93K 临床病例和 130K 图像
该数据集包含来自不同医学专业的图像和病例，例如肿瘤学、心脏病学、外科和病理学
其医学图像分类法包括 140 多个类，这些类以分层结构组织，它们之间具有不同类型的逻辑约束（例如相互排他性）

Touch-Vision-Language Dataset

下载链接：http://eu5b8.ensl.cn/20

触觉视觉语言（TVL）数据集，它将成对的触觉和视觉观察与人工注释和 VLM 生成的触觉语义标签相结合。

作者使用手持式 3D 打印采集设备收集数据。使用 DIGIT 传感器收集触觉数据：一种紧凑的开源触觉传感器，以可变形内表面的 RGB 图像形式提供观察结果。图像数据来自 Logitech BRIO 网络摄像头，其位置使触觉传感器和接触点在其视野内。然后，对收集的数据进行时间同步，并用触觉的语言描述进行标记，以生成对齐的触觉-视觉-语言示例数据集。

WIT 多模态(Multimodal)

下载链接：http://eu5bu.ensl.cn/b2

基于 Wikipedia 的图像文本（WIT）数据集是一个大型多模态数据集多语言数据集。WIT 由一组精选的 3760 万个实体组成丰富的图像文本示例，在 108 个维基百科中具有 1150 万张唯一图像语言。它的大小使 WIT 可以用作多模态机器学习模型。

悟空数据集

下载链接：http://eu5br.ensl.cn/8f

Wukong 数据集是一个大规模的多模态中文数据集。

数据集包含 1 亿<图像、文本>对
数据集中的图像根据大小（两个尺寸> 200px）和纵横比（1/3 ~ 3）进行过滤
数据集中的文本根据其语言、长度和频率进行筛选。隐私和敏感词也被考虑在内。

MINT-1T

数据集链接：http://edvvz.ensl.cn/c3

MINT-1T 是一个开源的 M终极模态 INTerleaved 数据集，具有 1 万亿个文本标记和 34 亿张图像，比现有开源数据集扩展了10 倍。

WuDaoCorpora Text文本预训练数据集

数据集链接：http://edvvt.ensl.cn/ce

WuDaoCorpora是北京智源人工智能研究院（智源研究院）构建的大规模、高质量数据集，用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成，分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联，为大模型训练提供坚实的数据支撑。

Conceptual Captions

数据集链接：http://edvv7.ensl.cn/09

Conceptual Captions 数据集有超过 300 万张配对图像带有自然语言字幕。

SBU Captions Dataset

数据集链接：http://edvvj.ensl.cn/76

100 万张带标题的照片描述图像

MiniGPT-4

数据集链接：http://edvv5.ensl.cn/7a

用于MiniGPT-4模型的第二阶段微调，包含高质量的图文对数据。

Ego-Exo4D

数据集链接：https://ego-exo4d-data.org/

Ego-Exo4D 呈现三种精心同步的自然与视频配对的语言数据集。（1）专家评论，揭示细微的技能。（2）参与者提供 Narrate-and-act 描述。(3) 支持浏览的一句话原子作描述，挖掘数据集，并解决视频语言学习

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络

0

0

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读8.7k

粉丝0

内容8.2k