大数跨境
0
0

GPT-4多模态模型,给虚拟人注入“灵魂” | 行业热点资讯

GPT-4多模态模型,给虚拟人注入“灵魂” | 行业热点资讯 洞见研报行业前沿
2023-03-15
0
导读:OpenAI于3月15日一点开展开发人员演示直播,展示了GPT-4及其功能和限制。首先就是接受图像输入了,例

OpenAI于3月15日一点开展开发人员演示直播,展示了GPT-4及其功能和限制。首先就是接受图像输入了,例如在今天的演示视频中, GPT-4 可以识别手绘的一张网页草图,并且根据草图写出网页的前端代码。


此前大家会有“ ChatGPT 让人思考能力退化 ” 的隐忧,而 GPT-4 可以像一名真正的人类老师一样一步一步引导、鼓励你思考并获得答案。我们比较了同一问题两个版本的回答,无论是基础功能、想象空间、逻辑能力、思考能力,都比之前强了一大截。


GPT-4比早先大家使用的 ChatGPT 的 GPT-3.5 内核强悍了一大截,再次刷新了我们对于AI的认知。


在官方的示例中,用户给 GPT 上传了一张 Reddit 上的梗图,问 GPT 这张图为什么好笑:

GPT 非常详细且精准地描述出了图片上的内容,并且有思维条理的解释了为什么这张图会让人觉得好笑。

GPT-4 有可能是一个多模态模型,可用于图像等领域。根据The Seattle Times 新闻报道,GPT-4 可能是一个很像ChatGPT 的系统,只生成文本;或者它也可以把图像和文字结合起来。一些风投机构和微软员工已经看到了它的运行情况,但是OpenAI还没有确定新系统是否会发布涉及图像的功能。此外,根据财富杂志报道,OpenAI也确实在开发一款通过文字能生成视频的AI 模型。

多模态模型训练数据为图像、视频等,规模远大于语言类模型,算力需求有望激增。由于多模态模型使用图像、视频等多媒体数据进行训练,而此类文件大小远超文字。1)以Stable  diffusion 为例,根据公司官网信息披露,该模型训练数据集为LAION  5B 的一个子数据集,而LAION 5B 的数据包至少80TB,规模已经远超传统语言类大模型训练时使用的数据量(一般是GB 级的)。

CHATGPT 多模态有望带来通用模式,显著提升模型生产效率与下游落地效率。例如,商汤科技的SenseCore AI 大装置,它由模型层、深度学习平台、计算基础设施三个部分架构而成。其中,模型层的模型工厂可以大幅降低人工智能生产要素的成本,提高人工智能的生产效率,实现人工智能以自动化、自适应的方式进行生产和落地,模型工厂已开发超过49000 个商用人工智能模型。

伴随着GPT4的发展,我们把目光放回到虚拟人,虚拟人行业产业链分为基础层、平台层与应用层。基础层主要提供虚拟人制造所需的软硬件支持,包括显示及动捕设备、芯片与云计算、渲染建模软件开发、内容与P输出等。平合层厂商负责建设虑拟人制作开发所需的平合,以及生产相应的行业解决方案,丰攻技术输出。应用层涵盖了虚拟人技术的各类应用场景。

而GPT-4正是弥补了原先平台层AI能力的不足。随着算力提升,新概念的数字人正在打破“皮套人”的固定认知。从外观看,通过超精细渲染,数字人高分辨率的皮肤微结构极大限度地提升了数字人在中、近景出镜的真实程度,拟人表现力显著提高,基本突破“恐怖谷效应”的形格势禁。纵向对比来看,以专业团队创作的服务型数字人为例,2021 年的百度AI 手语主播和2022 年凌迪Style3D的项目“Sarah”相比,拥有超精细皮肤渲染的Sarah 在观感和表情细节(甚至包括皱纹)更加接近真人。

我们认为,数字人的最终形态是完全由AI 驱动,即用AI 替换掉运营策划团队所扮演的角色。ChatGPT 所展现出来的高灵活度让人们对AI 有了新的认知,它比普通的AI 机器人更加像自然人,相较以往的AI 模型,AIGC 概念的ChatGPT 对信息、知识的挖掘和梳理更充分,对语句的处理更加贴近人类的日常交流表达习惯。

数字人产业逐渐进入稳定增长的态势,根据量子位预测2030年我国虚拟人整体市场规模将达2700亿元。数字人形象在具有很强的可塑性,结合AIGC 技术和NLP 技术,能够在虚拟主播、数字员工、虚拟偶像等新业态上满足用户的多样化需求,产生巨大市场机会,推动数字人产业的高速发展。尤其在当前以2D 仿真数字人为主的情况下,AIGC 可以提高皮套生成的效率,并且叠加NLP 模型后,有望实现AI 驱动的数字人。这将进一步加速数字人产业规模的增长。

ChatGPT 一上线就迅速成为了 AI 界的“当红炸子鸡”,短短5 天内用户突破百万,成为历史上最快突破百万用户的应用。这主要得益于其强大的语言生成能力和多样的应用场景。ChatGPT不仅能回答各种问题,还能写剧本、写小说、写说明书,甚至给代码纠错。并且在这过程中,它表现出了非常高的“情商”,能进行多轮对话,回复丝滑流畅。

3 月2 日,OpenAI 宣布开放ChatGPT 和whisper 的API 接口:


ChatGPT  API 是一个用于开发者的语言模型接口,它可以让开发者使用 GPT  3.5Turbo 模型来生成自然的对话和文本。ChatGPT API 的优势是它有持续的模型改进,低廉的价格,和可选的专用容量。


Whisper API 是一个用于开发者的语音识别接口,它可以让用户将语音转换为文本。它使用了一个深度神经网络模型,训练在大量的语音数据上,以达到高准确度。Whisper  API 可以识别多种格式的音频文件,包括 mp3,  mp4,  mpeg,  mpga,m4a,  wav 或webm。Whisper API 的优势是它有极高的速度,方便的按需访问,和合理的价格。


随着GTP-4这个多模态模型在各个方面的优异表现,其或将更好的与数字人相适配。这一举措将使得数字人的交互体验向前推进一大步。




文中参考报告,点击下方小程序查看




【声明】内容源于网络
0
0
洞见研报行业前沿
每日商业智库市场洞察分享,各行业研究报告,发现报告中的新知,各类智库精华报告,为投资者、高管、咨询顾问、商业分析师提供全面、实时的信息服务。电脑端请访问DJyanbao.com享受最佳体验。
内容 996
粉丝 0
洞见研报行业前沿 每日商业智库市场洞察分享,各行业研究报告,发现报告中的新知,各类智库精华报告,为投资者、高管、咨询顾问、商业分析师提供全面、实时的信息服务。电脑端请访问DJyanbao.com享受最佳体验。
总阅读432
粉丝0
内容996