大数跨境
0
0

一文彻底搞懂什么是多模态?

一文彻底搞懂什么是多模态? AI科技在线
2026-01-17
4
导读:现在多模态大模型越来与普及,让我们来了解一下多模态模
来源:飞驰洲际

现如今,多模态大模型愈发普及,成为了技术发展的前沿趋势。那么,什么是多模态呢?简单来说,多模态是指通过多种感官或信息渠道来理解和处理数据的方式。在人工智能领域,这意味着模型能够同时处理和理解文本、图像、声音等多种类型的数据,从而更加贴近人类对世界的感知方式。多模态大模型的应用前景广阔,它们在图像描述、语音识别、虚拟助手等领域展现出强大的潜力。随着技术的不断进步,我们有理由相信,多模态大模型将在未来为我们的生活带来更多的便利和创新。 让我们了解一下他的相关概念吧!

模态

模态是指一些表达或感知事物的方式,每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。

以上的每一种都可以称为一种模态。

相较于图像、语音、文本等多媒体(Multi-media)数据划分形式,“模态”是一个更为细粒度的概念,同一媒介下可存在不同的模态。比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。

多模态

多模态即是从多个模态表达或感知事物。多模态可归类为同质性的模态,例如从两台相机中分别拍摄的图片,异质性的模态,例如图片与文本语言的关系。

多模态可能有以下三种形式:

  • 描述同一对象的多媒体数据。如互联网环境下描述某一特定对象的视频、图片、语音、文本等信息。

  • 多模态来自不同传感器的同一类媒体数据。如医学影像学中不同的检查设备所产生的图像数据,包括B超(B-Scanultrasonography)、计算机断层扫描(CT)、核磁共振等;物联网背景下不同传感器所检测到的同一对象数据等。

  •  具有不同的数据结构特点、表示形式的表意符号与信息。如描述同一对象的结构化、非结构化的数据单元;描述同一数学概念的公式、逻辑 符号、函数图及解释性文本;描述同一语义的词向量、词袋、知识图谱以及其它语义符号单元等。 通常主要研究模态包括"3V":即Verbal(文本)、Vocal(语音)、Visual(视觉)。

多模态机器学习

多模态机器学习是从多种模态的数据中学习并且提升自身的算法,它不是某一个具体的算法,它是一类算法的总称。

 从语义感知的角度切入,多模态数据涉及不同的感知通道如视觉、听觉、触觉、嗅觉所接收到的信息;

 在数据层面理解,多模态数据则可被看作多种数据类型的组合,如图片、数值、文本、符号、音频、时间序列,或者集合、树、图等不同数据结构所组成的复合数据形式,乃至来自不同数据库、不同知识库的各种信息资源的组合。对多源异构数据的挖掘分析可被理解为多模态学习

多模态典型任务

  1. 跨模态预训练

    图像/视频与语言预训练。 跨任务预训练 

  2. Language-Audio

    Text-to-Speech Synthesis: 给定文本,生成一段对应的声音。 Audio Captioning:给定一段语音,生成一句话总结并描述主要内容。(不是语音识别) 

  3. Vision-Audio

    Audio-Visual Speech Recognition(视听语音识别):给定某人的视频及语音进行语音识别。

    Video Sound Separation(视频声源分离):给定视频和声音信号(包含多个声源),进行声源定位与分离。

    Image Generation from Audio: 给定声音,生成与其相关的图像。 

    Speech-conditioned Face generation:给定一段话,生成说话人的视频。

    Audio-Driven 3D Facial Animation:给定一段话与3D人脸模版,生成说话的人脸3D动画。

  1. Vision-Language 

    Image/Video-Text Retrieval (图(视频)文检索): 图像/视频<-->文本的相互检索。

    Image/Video Captioning(图像/视频描述):给定一个图像/视频,生成文本描述其主要内容。

    Visual Question Answering(视觉问答):给定一个图像/视频与一个问题,预测答案。

    Image/Video Generation from Text:给定文本,生成相应的图像或视频。

    Multimodal Machine Translation:给定一种语言的文本与该文本对应的图像,翻译为另外一种语言。

    Vision-and-Language Navigation(视觉-语言导航): 给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。 Multimodal Dialog(多模态对话): 给定图像,历史对话,以及与图像相关的问题,预测该问题的回答。

  1. 定位相关的任务

    Visual Grounding:给定一个图像与一段文本,定位到文本所描述的物体。

    Temporal Language Localization: 给定一个视频即一段文本,定位到文本所描述的动作(预测起止时间)。

    Video Summarization from text query:给定一段话(query)与一个视频,根据这段话的内容进行视频摘要,预测视频关键帧(或关键片段)组合为一个短的摘要视频。 

    Video Segmentation from Natural Language Query: 给定一段话(query)与一个视频,分割得到query所指示的物体。 

    Video-Language Inference: 给定视频(包括视频的一些字幕信息),还有一段文本假设(hypothesis),判断二者是否存在语义蕴含(二分类),即判断视频内容是否包含这段文本的语义。

    Object Tracking from Natural Language Query: 给定一段视频和一些文本,追踪视频中文本所描述的对象。 

    Language-guided Image/Video Editing: 一句话自动修图。给定一段指令(文本),自动进行图像/视频的编辑。

  2. 更多模态

    Affect Computing (情感计算):使用语音、视觉(人脸表情)、文本信息、心电、脑电等模态进行情感识别。

    Medical Image:不同医疗图像模态如CT、MRI、PETRGB-D模态:RGB图与深度图


声明:本公众号转发内容(包括但不限于文字、图片、音频、视频等)仅供交流,其观点不代表本公众号立场;版权归原作者或机构所有,若涉及版权问题烦请留言联系,以便第一时间更正或删除。

【声明】内容源于网络
0
0
AI科技在线
1234
内容 1141
粉丝 0
AI科技在线 1234
总阅读4.5k
粉丝0
内容1.1k