开启梦幻AI之旅，MM—DIV联袂GPT4V突破绝佳- 大数跨境

首页

开启梦幻AI之旅，MM—DIV联袂GPT4V突破绝佳

感织科技

2023-11-09

导读：近日，Microsoft Azure AI 的一篇论文介绍了“MM-VID”，解决了分析长视频和复杂任务的挑战...

近日，Microsoft Azure AI 的一篇论文介绍了“MM-VID”，这是一个将 GPT-4V 与视觉、音频和语音专业工具相结合以增强视频理解的系统。MM-VID 解决了分析长视频和复杂任务（例如理解跨多个剧集的故事情节）的挑战。

MM-VID系统

MM-VID，是一个集成系统，它利用 GPT-4V 的功能，结合视觉、音频和语音方面的专用工具，以促进高级视频理解。MM-VID 旨在解决长视频和复杂任务带来的挑战，例如在长达一小时的内容中进行推理以及掌握跨多个剧集的故事情节。MM-VID 使用 GPT-4V 进行视频到脚本生成，将多模式元素转录为长文本脚本。生成的脚本详细描述了角色的动作、动作、表情和对话，为大型语言模型（LLM）实现视频理解铺平了道路。这实现了高级功能，包括音频描述、字符识别和多模式高级理解。实验结果证明了 MM-VID 在处理不同视频长度的不同视频类型方面的有效性。此外，我们还展示了其应用于交互式环境（例如视频游戏和图形用户界面）时的潜力

文章表示，近年来，大型预训练的视频模型[9,13,20,21,42,69] 和视频语言模型[10、22、23、30、36-360、66]取得了重大进展，证明了它们对视频内容的推理能力。然而，这些模型通常通过短片段（例如，动力学[15]和VATEX[68]中的10秒视频）或预定义的动作类（例如，在v1[24]中的174个类）进行训练。因此，这些模型可能无法提供对真实世界[62,70]中复杂视频的详细理解。为了更全面地了解我们在日常生活中遇到的视频，我们需要能够解决复杂挑战的方法。

MM-Vid 管道：鸟瞰图

MM-VID概述：我们的系统以一个视频文件作为输入，并输出一个描述视频内容的长文本脚本。MM-VID由四个模块组成：(i)多模态预处理，（ii）外部知识收集，（iii）剪辑级视频描述生成，和（iv）脚本生成

MM-VID可以做什么

进入官网（https://multimodal-vid.github.io/）每一个视频模块都为我们详细呈现了MM-VID的功能特色和细微差别。

·扎根理论的问答

MM-VID通过引用生成的脚本中的相关证据来解决问题。

·多模态推理

MM-VID集成了视觉和听觉线索，为对用户查询提供上下文准确的响应。

·长达一小时的视频理解

MM-VID能够生成一个带有相应时间戳的长脚本来表示纪录片视频。通过利用这个生成的脚本作为上下文信息，MM-VID可以执行一系列的任务，包括总结冗长的视频，处理在视频中提出的特定查询，以及索引关键时刻。

·多视频情景分析

MM-VID展示了总结视频系列、进行跨集推理、提供跨多个集的角色旅程的详细描述，并促进基于基础的QA交互的能力。

·字符标识

MM-VID有效地利用视觉提示，根据所提供的面部照片来识别视频中描述的字符。因此，脚本生成过程得到了显著的改进，确保了对视频内容中的角色及其交互的描述更加准确和与上下文相关。

·扬声器标识

视觉提示通过提供上下文线索来识别个人和将言语属性为特定的说话者，在提高ASR表现方面发挥着关键作用。

·音频描述生成

音频描述[26,57]在让盲人、低视力或面临视觉理解内容困难的人能够访问视频方面扮演着至关

重要的作用。在没有 ASR 输入的情况下，MM-VID 会处理视频并生成详细的脚本。

·自我完善

MM-VID采用了自细化方法[45,58,80]。这涉及到根据最初生成的脚本和并发生成的视频摘要来修改脚本。通过这个过程，MM-VID能够纠正错误和不准确性，从而产生更精细的输出。

·快速变化的短片

短视频通常以非标准的帧大小和明显更短的持续时间为特色。值得注意的是，MM-VID擅长准确描述这些短视频中描述的烹饪食谱，尽管这些内容有独特的特点。

上图是MM-VID的执行流的一个示例。给定一个棒球视频，MM-VID提供了一个估计的视频长度，然后调用场景检测和ASR工具，并收集外部知识。然后，使用GPT-4V生成剪辑级的视频描述。GPT-4V以视频帧和文本提示符为输入，并输出视频描述。最后，给定剪辑级的描述、视频元数据和ASR，我们使用GPT-4为输入的视频生成一个连贯的脚本。上图显示了持续的输出结果。

MM-VID正在分析视频

此外，MM-VID还进行了大量的不同范围的用户调研，面对不同群体（感官障碍）进行产品测试和升级。这使它更能完成普适性目标，成为提高效率的应用型工具。相信该工具的落地能让我们日常生活中的剪辑、脚本创作、视频学习等工作如虎添翼。

联系我们：

团队项目网站：

关于我们

Human+是由厦门大学信息学院郭诗辉副教授带领的研究团队，为了让每个人能够更好的去运动而研发了智能服装，并以传说中解决人们穿衣问题的嫘祖命名研发产品。我们致力于通过智能服装提高用户的运动能力，但是又不仅仅局限于运动方向。团队将智能服装作为载体，应用于运动，医疗，动作捕捉等多领域。团队中集合了一群才华横溢的小伙伴，每个人都拥有着自己的特长。团队中不仅仅有计算机领域的人才，还有着市场，美工，营销，硬件，财务等多方位高水平专业性人才。在团队的共同努力下，围绕智能服装，开展一流的研究，沉淀有价值的系统。

Human+ is a research team led by Guo Shihui, an associate professor from the School of Information Technology, Xiamen University. In order to make everyone better able to exercise, Human+ developed intelligent clothing, which was named Lei Zu, a legendary designer who solves people's dressing problems. In this team, there are a group of talented friends, each of whom has his own special skills. There are not only computer talents in the team, but also marketing, art, marketing, hardware, finance and other high-level professional talents. With the joint efforts of the team, we will carry out first-class research and precipitate valuable systems around smart clothing.

Human+ aims to improve users' movement ability through smart clothing, but not just in the direction of movement. Our team uses smart clothing as a carrier, which is applied in many fields such as sports, medical treatment and motion capture.

【声明】内容源于网络

感织科技

使命：让每个人更好地运动/Make A Better Move愿景：通过智能服装提高用户的运动能力战略：围绕智能服装，开展一流的研究，沉淀有价值的系统

内容 15

粉丝 0

感织科技使命：让每个人更好地运动/Make A Better Move愿景：通过智能服装提高用户的运动能力战略：围绕智能服装，开展一流的研究，沉淀有价值的系统

总阅读15

粉丝0

内容15