GPT-4多模态模型，给虚拟人注入“灵魂”

首页

GPT-4多模态模型，给虚拟人注入“灵魂” | 行业热点资讯

洞见研报行业前沿

2023-03-15

导读：OpenAI于3月15日一点开展开发人员演示直播，展示了GPT-4及其功能和限制。首先就是接受图像输入了，例

OpenAI于3月15日一点开展开发人员演示直播，展示了GPT-4及其功能和限制。首先就是接受图像输入了，例如在今天的演示视频中， GPT-4 可以识别手绘的一张网页草图，并且根据草图写出网页的前端代码。

此前大家会有“ ChatGPT 让人思考能力退化 ” 的隐忧，而 GPT-4 可以像一名真正的人类老师一样一步一步引导、鼓励你思考并获得答案。我们比较了同一问题两个版本的回答，无论是基础功能、想象空间、逻辑能力、思考能力，都比之前强了一大截。

GPT-4比早先大家使用的 ChatGPT 的 GPT-3.5 内核强悍了一大截，再次刷新了我们对于AI的认知。

在官方的示例中，用户给 GPT 上传了一张 Reddit 上的梗图，问 GPT 这张图为什么好笑：

GPT 非常详细且精准地描述出了图片上的内容，并且有思维条理的解释了为什么这张图会让人觉得好笑。

GPT-4 有可能是一个多模态模型，可用于图像等领域。根据The Seattle Times 新闻报道，GPT-4 可能是一个很像ChatGPT 的系统，只生成文本；或者它也可以把图像和文字结合起来。一些风投机构和微软员工已经看到了它的运行情况，但是OpenAI还没有确定新系统是否会发布涉及图像的功能。此外，根据财富杂志报道，OpenAI也确实在开发一款通过文字能生成视频的AI 模型。

多模态模型训练数据为图像、视频等，规模远大于语言类模型，算力需求有望激增。由于多模态模型使用图像、视频等多媒体数据进行训练，而此类文件大小远超文字。1）以Stable diffusion 为例，根据公司官网信息披露，该模型训练数据集为LAION 5B 的一个子数据集，而LAION 5B 的数据包至少80TB，规模已经远超传统语言类大模型训练时使用的数据量（一般是GB 级的）。

CHATGPT 多模态有望带来通用模式，显著提升模型生产效率与下游落地效率。例如，商汤科技的SenseCore AI 大装置，它由模型层、深度学习平台、计算基础设施三个部分架构而成。其中，模型层的模型工厂可以大幅降低人工智能生产要素的成本，提高人工智能的生产效率，实现人工智能以自动化、自适应的方式进行生产和落地，模型工厂已开发超过49000 个商用人工智能模型。

伴随着GPT4的发展，我们把目光放回到虚拟人，虚拟人行业产业链分为基础层、平台层与应用层。基础层主要提供虚拟人制造所需的软硬件支持，包括显示及动捕设备、芯片与云计算、渲染建模软件开发、内容与P输出等。平合层厂商负责建设虑拟人制作开发所需的平合，以及生产相应的行业解决方案，丰攻技术输出。应用层涵盖了虚拟人技术的各类应用场景。

而GPT-4正是弥补了原先平台层AI能力的不足。随着算力提升，新概念的数字人正在打破“皮套人”的固定认知。从外观看，通过超精细渲染，数字人高分辨率的皮肤微结构极大限度地提升了数字人在中、近景出镜的真实程度，拟人表现力显著提高，基本突破“恐怖谷效应”的形格势禁。纵向对比来看，以专业团队创作的服务型数字人为例，2021 年的百度AI 手语主播和2022 年凌迪Style3D的项目“Sarah”相比，拥有超精细皮肤渲染的Sarah 在观感和表情细节（甚至包括皱纹）更加接近真人。

我们认为，数字人的最终形态是完全由AI 驱动，即用AI 替换掉运营策划团队所扮演的角色。ChatGPT 所展现出来的高灵活度让人们对AI 有了新的认知，它比普通的AI 机器人更加像自然人，相较以往的AI 模型，AIGC 概念的ChatGPT 对信息、知识的挖掘和梳理更充分，对语句的处理更加贴近人类的日常交流表达习惯。

数字人产业逐渐进入稳定增长的态势，根据量子位预测2030年我国虚拟人整体市场规模将达2700亿元。数字人形象在具有很强的可塑性，结合AIGC 技术和NLP 技术，能够在虚拟主播、数字员工、虚拟偶像等新业态上满足用户的多样化需求，产生巨大市场机会，推动数字人产业的高速发展。尤其在当前以2D 仿真数字人为主的情况下，AIGC 可以提高皮套生成的效率，并且叠加NLP 模型后，有望实现AI 驱动的数字人。这将进一步加速数字人产业规模的增长。

ChatGPT 一上线就迅速成为了 AI 界的“当红炸子鸡”，短短5 天内用户突破百万，成为历史上最快突破百万用户的应用。这主要得益于其强大的语言生成能力和多样的应用场景。ChatGPT不仅能回答各种问题，还能写剧本、写小说、写说明书，甚至给代码纠错。并且在这过程中，它表现出了非常高的“情商”，能进行多轮对话，回复丝滑流畅。

3 月2 日，OpenAI 宣布开放ChatGPT 和whisper 的API 接口：

ChatGPT API 是一个用于开发者的语言模型接口，它可以让开发者使用 GPT 3.5Turbo 模型来生成自然的对话和文本。ChatGPT API 的优势是它有持续的模型改进，低廉的价格，和可选的专用容量。

Whisper API 是一个用于开发者的语音识别接口，它可以让用户将语音转换为文本。它使用了一个深度神经网络模型，训练在大量的语音数据上，以达到高准确度。Whisper API 可以识别多种格式的音频文件，包括 mp3， mp4， mpeg， mpga，m4a， wav 或webm。Whisper API 的优势是它有极高的速度，方便的按需访问，和合理的价格。

随着GTP-4这个多模态模型在各个方面的优异表现，其或将更好的与数字人相适配。这一举措将使得数字人的交互体验向前推进一大步。

文中参考报告，点击下方小程序查看

【声明】内容源于网络

洞见研报行业前沿

每日商业智库市场洞察分享，各行业研究报告，发现报告中的新知，各类智库精华报告，为投资者、高管、咨询顾问、商业分析师提供全面、实时的信息服务。电脑端请访问DJyanbao.com享受最佳体验。

内容 996

粉丝 0

洞见研报行业前沿每日商业智库市场洞察分享，各行业研究报告，发现报告中的新知，各类智库精华报告，为投资者、高管、咨询顾问、商业分析师提供全面、实时的信息服务。电脑端请访问DJyanbao.com享受最佳体验。

总阅读432

粉丝0

内容996