大数跨境

【干货】AIGC的典型应用

【干货】AIGC的典型应用 数组智控产业发展科技院
2023-05-10
1
导读:文章来源《AIGC未来已来》创造力曾被认为是少数幸运儿所拥有的天赋,但随着深度学习的爆发,协助创作者提升创作

文章来源《AIGC未来已来》

创造力曾被认为是少数幸运儿所拥有的天赋,但随着深度学习的爆发,协助创作者提升创作效率已经成为可能。

目前来看,AIGC已经被广泛应用在文字、图像、视频和代码的生成工作中,涉及工业设计、动漫设计、摄影艺术、游戏制作等诸多场景,并能够激发设计者的创作灵感,提升内容生产效率。

一些较早创立的企业已经实现了一定程度的商业化。

尤其是在一些重复性比较高的任务、对精度要求不高的领域,AIGC的应用普及程度较高。

如图8-1所示,随着AIGC技术的不断完善,适用的领域将逐步扩展。

未来AIGC服务有望通过SaaS化的形式实现变现。

图8-1 AIGC的典型应用领域与相关机构(图片来源:“Generative AI:A Creative New World”一文)

1 文字创作

通过AIGC来生成文字产品,已经有很多应用案例。

从早期的使用Office Word来实现对错误内容的提示和修正,到后来利用NLG(Nature language Generation)自动化文本生成等都可以算作AIGC应用的早期范畴。

例如,我们看到的一些足球/篮球比赛的报道、天气预报、新闻、对话机器人等都有利用人工智能生成内容的身影。

随着2022年AIGC正式进入大众视野,以及ChatGPT引发全球关注和讨论热潮,文字创作也再次成为人工智能生成内容的主阵地。

主要特点

目前,业内一些研究机构把文字创作分为非交互式文本(结构化协作、非结构化协作、辅助性写作)交互式文本(闲聊机器人、文本交互游戏等)两个大类,如表8-1所示。

表8-1 AIGC文本生成分类与特点

在结构化写作领域,非交互式文本中的结构化写作成熟度较高,目前已经在很多领域应用。

此类结构化写作主要是基于结构化数据或者规范格式,可以在特定场景下生成文本,如体育比赛的报道、天气预报、公司财报等。

尤其是GPT-3的出现,在问答、摘要、翻译甚至续写方面均展现出了较强的能力,依托大模型作为底层工具,文本生成领域的商业变现能力也逐渐清晰。

美国众议员杰克·奥金克洛斯在发表演讲讨论创建“美国-以色列人工智能中心法案”时,就利用AIGC来撰写讲稿,自己再加以润色,最终有了AIGC代笔的讲稿首次在美国国会被宣读的历史瞬间。

有专家曾经预测,到2030年将会有90%以上的新闻会由人工智能来完成。

在非结构化写作领域,主要是针对个性化需求,在营销方面会有较大突破。

但非结构化领域对文本开放度和自由度要求更高、更具个性化,对人工智能生成技术要求也更高。

因此在小说续写、文章生成等方面,生成的文字内部仍然缺少逻辑性,稳定性也不足,难以直接进行使用。

另外,文字中的情感和语言表达也是难以短期复刻的。

因此,短期来看,非结构化写作领域更适合在垂直赛道进行探索,基于特定领域的训练数据进行场景落地可能是一个比较好的选择。

另外,在交互式文本方面,闲聊机器人发展速度较快,未来有望延伸出虚拟伴侣、游戏里的NPC等个性化服务,线上智能社交有望成为一种常态。

典型应用

目前文字创作类的AIGC企业较多,已有多家企业获得大量融资,且发展良好。

2022年11月底,OpenAI发布了对话式人工智能ChatGPT,ChatGPT最大的特点在于能够“理解”对话者的语义,并进行有效、连续的反馈。

ChatGPT在文本生成领域可以达到“以假乱真”的效果,甚至还可以写故事、作诗、编程,生成内容能力空前提高。

正是基于对文本内容的深入理解和反馈,用户甚至将ChatGPT当作搜索引擎一样使用。

例如,在询问光线光缆行业情况的时候,ChatGPT会直接根据训练时的大数据集给出合理的答案,并在用户的追问过程中持续回复。

而传统搜索引擎则需要按照关键字去寻找合适的资料并进行整理,因此在实际体验中,从ChatGPT获取信息的质量要高于搜索引擎,速度也会更快。

Jasper成立于2021年,是一家知名的人工智能内容平台公司。

Jasper从2021年上半年在互联网发布的数十亿篇文章、视频等内容中学习而成。

如图8-2所示,Jasper可以通过文字生成功能,为用户制作Instagram标题、编写TikTok视频脚本、广告营销文案、电子邮件内容等,甚至可以进行多轮对话,并记得之前的聊天内容。

Jasper包含GPT3、NeoX等多个模型,并在这些模型的基础上量身定制界面和原始工作流程,使人工智能更易于日常使用。

通过使用Jasper,用户可以寻找创作思路、高效完成文案创作,有网友甚至调侃Jasper比较擅长“长篇大论”。

图8-2 Jasper官网截图

Jasper允许个人或者团队利用人工智能来进行创作,并实现商业化。

2022年10月,Jasper.ai宣布完成1.25亿美元的A轮融资,估值达到15亿美元,而Jasper AI从产品上线到A轮融资仅十几个月的时间

目前Jasper拥有超过7万名客户,包括Airbnb、IBM等知名企业客户,但是中小企业和个人用户仍然居多。

仅2021年就创造了4000万美元的收入,2022年预计收入将达到9000万美元。

Otherside AI是一家主要利用人工智能自动回复邮件的公司。

Otherside AI的操作非常简单,只要输入邮件内容的关键要点,它就可以为生成一封完整的邮件。

Copy.ai则是一个通过AI来编写广告文案和营销文案的创业公司,它可以帮助用户在几秒内生成高质量的广告文案和营销文案,主打ToB商业场景,它的底层技术也是采用OpenAI的GPT-3系统。

此外,还有Lavender专门聚焦在销售电子邮件,Surfer聚焦在生成针对SEO优化的博客文章等。

腾讯AI Lab发布了智能创作助手文涌(Effidit)的2.0版本(如图8-3所示),可以实现文本续写、智能纠错、文本润色、超级网典等功能,帮助创作者在创作的过程中开阔思路、提升文本质量。

同时,文涌还支持PC端与手机端,在搜狗输入法和QQ浏览器中都可以体验。

图8-3 通过手机端浏览器体验Effidit

随着时间的推移,未来的模型会越来越好,我们应该期待能够看到更高质量的输出、更多垂直领域深度内容的产生。

比如法律合同撰写会产生不同的AIGC模型,并在各个特定领域里发挥重要作用。

如图8-4所示,Spellbook就是一款基于GPT-3的合同审查和修改工具,该产品的主要定位是法律合同助手,以插件的形式集成到Word文档里,可以支持自动生成合同条款、总结合同内容、解释合同条款和术语以及谈判要点等功能。

这也符合模型即服务的特点,即基于底层大模型,然后聚焦不同垂直场景的数据进行优化,从而给用户带来更好的体验。

未来,技术只有服务于具体场景和人群,才能带来长久的价值。

图8-4 Spellbook官网截图

另外,用户需要的个性化网页和电子邮件内容,可以成为营销策略的一部分,这些文案往往形式简单并且有固定的模板,未来将有望大力推动自动化和智能化解决方案的落地。

当然,需要指出的是,使用AIGC生成诸如《百年孤独》这样的经典巨著,短期内并不现实,这也不是AIGC应用的初衷。

当然,这些应用也需要迅速建立起自己的行业壁垒,围绕这一领域的竞争对手越来越多。

而且大部分公司使用的算法相差无几,几乎都是GPT-3的变体。

2 音频生成

生成音频其实在我们的生活中已经在广泛使用,比较典型的是手机语音导航,用户可以切换不同的明星甚至卡通人物的语音提示,例如让林志玲、郭德纲、沈腾的语音为我们导航。

这个过程其实是邀请明星提前朗读完成一个语音库,之后通过反复训练学习,使系统可以模拟这些明星的声音说出导航的语句。

同样的,我们也可以通过导航软件录制自己或者家人的语音导航包。

另外,在短视频内容配音、游戏配乐等领域的应用,可以有效降低采购成本。

主要特点

在TTS(Text-to-Speech)领域,技术成熟度较高。

语音客服、有声读物制作等方面也得到了快速普及。

目前的短视频制作领域,TTS已经能够基于文字自动生成解说配音,甚至还能够生成不同方言、不同音色的配音。

当然,这些领域还有一些挑战,比如如何把文本的真实感情、深层次的语义通过语音表达出来,其中的抑扬顿挫怎么表现得更加淋漓尽致,还需要进一步打磨。

同时,对于电影等要求比较高的领域,如何让合成的音频听起来不那么机械,生成具备人类水准的语音还有一定的难度。

如表8-2所示,在音乐创作领域,AIGC逐步细分为作词、作曲、编曲、录制、混音等多个不同方向。

人工智能进行音乐创作的过程主要还是依托Transformer模型,先将音乐数据转换为可以识别的编码文本,之后训练出能够自动生成编码数据的模型,最后将生成的编码结果转化为音乐数据。

表8-2 AIGC在音频生成领域的分类与特点

2021年,人工智能谱写完成的贝多芬《第十交响曲》在波恩首次上演,引发关注。

在编曲方面,AIGC可以根据创作者的个人偏好进行编曲,从而生成不同乐器的和弦,例如鼓、钢琴、贝斯等。

典型应用

目前国内外已经有一些研究机构和企业在音乐创作方面进行尝试。

例如,中央音乐学院人工智能系教授李子晋通过Transformer模型训练1700多首古典钢琴曲,Attention机制更好地帮助音乐家根据自己的审美把握主题。

整个过程把人工智能创造音乐主要分为3个部分。

首先是音乐,音乐包括乐谱、音频、文字等各类数据,人工智能创造音乐最基础的工作就是数据构建。

这些数据如何与计算相连接,其中涉及专家知识等支持和协助。

其次是计算,涉及理解和分析,除了专家知识的加入之外,还依赖于听觉主观心理学,声音要依赖专业技术人员的翻译,才能打上标签。

最后是创造力,创造力是在分析理解的基础上,要考虑数据与理解之间的逻辑关系,而不是凭空想象的。

此外设计方法的介入,有望成为将创造力展现给公众的较好途径。

如图8-5所示,通过人工智能算法进行作曲、编曲、歌唱、混音,能够在23秒内快速创造一首歌曲,并且可以达到一般作曲家的创作水平。

图8-5 中央音乐学院AIGC生成音频示意图(来源:《艺术家与AI研究者的跨界碰撞丨记青源Workshop「AI+艺术」研讨会(2022年第10期)》)

同时,在音乐数据方面也构建了用于计算音乐学研究的大型音乐数据分享平台,其中包括用于MIR研究的多功能音乐数据库、中国传统乐器音响数据库、流行歌曲midi-wav双向数据库等,每个数据库又有多个数据集。

基于这些数据,研究人员进行了很多数据库衍生相关的研究,在乐器分类方面有《基于卷积循环神经网络的复音音乐中国民族乐器检测》,在演奏技巧的识别方面有《用于琵琶指法自动识别的网络图特征》,在音色空间研究方面,有《基于主观感知得分与客观音频特征的中国民族乐器音色相似性的研究》等[插图]。除了中央音乐学院的尝试外,国内的游戏平台昆仑万维也推出了自己的模型——天宫乐府(SkyMusic),该模型成为国内首个商用级别的人工智能作曲模型,这也让昆仑万维成为国内唯一一家被传统音乐版权代理机构接收商用人工智能音乐的公司。

在海外也有企业开展生成音频的探索。

Podcast.ai是一个人工智能生成播客,每周都会对一个话题进行深入探讨。

如图8-6所示,Podcast.ai通过乔布斯的传记以及在网络上搜集到的乔布斯录音,利用大规模语言模型进行训练后,生成了一段时长约20分钟的虚构的乔布斯接受美国知名主持人采访的内容,并获得广泛关注。

在这段杜撰的播客中,乔布斯谈论了自己的大学时代,并发表了一些观点,整个播客听起来毫无违和感,足以做到以假乱真的地步。而Podcast.ai采用的语音模型就来自Play.ht。

Play.ht在2022年9月发布了第一个语音模型Peregrine,包含数千种说话的声音,可以学习人类的语气、音调和笑声。

图8-6 Podcast.ai官网截图

与此同时,一款Riffusion的人工智能生成音乐应用也在网络上引发关注,用户输入提示词就可以获得一段对应的音乐。

而且研发人员没有对Stable Diffusion的算法本身进行任何修改,只是单纯用了一个带标签的声谱图数据集进行个性化训练,效果引发广泛关注。

类似的还有Soundful(参见图8-7)、Boomy(参见图8-8)等人工智能应用程序生成整首歌曲。

Endel可以使用人工智能创建个性化的背景音乐,让用户集中注意力或者放松等。

Melobytes甚至允许用户转换音频文件,成为一名说唱歌手。

图8-7 Soundful官网截图

图8-8 Boomy官网截图

在挑战方面,AIGC的音乐创作过程虽然不复杂,但是由于音乐的相关数据量较大,因此需要对乐曲的段落、调性等高纬度的乐理知识进行专业提取,仍具有一定的门槛。

3 视频生成

AIGC生成视频其实非常值得期待,这将有望打开电影、游戏、虚拟现实、建筑和实体物品设计等创意市场。

目前已经有科技公司正在尝试这个领域。

从技术上看,视频是把多张图片有逻辑地、连贯地组合在一起。

由文字生成视频,首先要生成多张图片,然后还要把这些图片有逻辑地、连贯地组合起来,因此难度要比AIGC绘画高出不少。

也正因为如此,AIGC生成视频也有更大的想象空间,一旦效率达到AIGC绘画的水平,并且能够保证较高的视频品质,将会对短视频、影视、广告等内容生产行业带来较大的影响,不仅可以提升视频的制作效率和成本,还能帮助设计师产生更多灵感和创意,让视频内容更丰富。

对于创业者来说,人工智能为艺术家和设计师打造了更好的辅助工具,将AIGC更好地融入他们的工作流程。

例如针对特定行业特定领域的工具,在AIGC的融入下,结合本地辅助工具,可以帮助设计师更好地完成工作。

典型应用

在AIGC生成视频方面,大量企业和机构已经开始布局和尝试。

如图8-9所示,2022年10月20日,人民日报客户端在腾讯视频号上发布了一条《未来中国什么样?

AI为你画出来》的视频,里面的视频内容就得到了AIGC绘画技术支持。

整个视频通过对重要会议的关键词进行梳理,通过AIGC生成视频画面的方式展现出来,可以让用户更加深入地理解重要会议的内涵,并且提升了接受度和传播力。

人民日报客户端也成为国内主流媒体较早尝试AIGC在视频领域的制作和尝试的机构。

图8-9 人民日报客户端AIGC生成视频类截图

2022年,Meta公司公布了AI制作视频工具Make-A-Video。

Make-A-Video具有文字转视频、图片转视频、视频生成视频三种功能。

谷歌也推出了AIGC视频生成模型Phenaki,能够根据文本内容生成可变的长视频。

如图8-10所示,在公布的样例中,Phenaki可以基于几百个单词组成一段前后逻辑连贯的视频,整个过程只需要两分钟。

图8-10 Phenaki模型生成视频

Runway是一家AIGC视频编辑软件公司,例如在一张森林的照片中,用户可以在Runway的软件中输入一个简短的文字短语,之后就可以在森林里出现一个湖泊或者城堡(如图8-11所示)。

Runway专注于使用人工智能来增强视频的编辑能力和创造新的创作体验。

目前Runway的主要客户是独立创意者,当然也有很多知名企业在使用,比如New Balance公司使用Runway来进行运动鞋的设计等。

类似的还有Opus,它可以将文本变为视频,如图8-12所示。

图8-11 Runway生成视频截图

图8-12 Opus官网截图

2022年戛纳电影短片节把“最佳短片奖”颁给了AI作品《乌鸦》,作者在介绍这部作品的时候表示,《乌鸦》这部作品将真人舞蹈视频素材Painted输入OpenAI的CLIP模型,并结合描述词“荒凉风景中的乌鸦画”,最终将其转化为动画。

AIGC在视频领域的应用,让我们期待未来虚拟人也能够作为演员在影视剧中扮演不同的角色来提高内容产出的效率和多样性。

在国内,影视导演也将AIGC引入短剧设计与制作中。

如图8-13所示,AIGC可以有效激发影视剧本的创作灵感,推动数字人在影视剧本中扮演不同角色,在短剧中极大提升影视产品的后期制作质量,帮助影视作品实现文化与经济价值的最大化。

例如,影视导演海辛分享了其公司把AIGC融入影视美术设计的尝试,工作流程大致为“Midjourney→Blender→UE虚拟制片”。

在极短的制片筹备过程中,AIGC可以大幅度提高效率。

图8-13 将AIGC融入影视拍摄(图片来源:“不明觉厉的AI绘画,对内容创作者来说有什么用?”一文)

但是需要指出的是,AIGC生成视频还面临诸多挑战。

一是高精度、高可控的视频生成技术仍然没有被破解,文本生成视频技术还需要进一步打磨。

例如由于视频生成增加了时间上的维度,因此复杂性和难度成倍增加,可控性就变得十分重要。

做样例视频问题不大,但是生成精准的商业素材其可控性还难以把握。

二是大模型带来的数据偏见、推理速度、能耗以及模型交付等问题还没有得到有效解决,这些都将阻碍技术的进一步落地和普及。

三是视频的一大特殊之处在于故事脚本,例如整个动作的演绎需要更复杂的多模态序列,如何在整个故事情节上进行数学表达、数学建模,仍需要进一步探讨。

4 3D模型生成

3D模型对于设计、创造类工作非常重要。

传统的3D建模需要利用三维制作软件,通过虚拟三维空间构建出具有三维数据的模型,技术要求比较高,还需要懂美术、熟悉各种3DMAX软件,因此时间成本、人力成本较高。

随着神经辐射场技术(Neural Radiance Field,NeRF)的出现,可以把全景相机拍摄的视频自动渲染成3D场景,从而减少了人工3D建模的过程。

NeRF技术在2020年欧洲计算机视觉国际会议提出,2021年获得了美国计算机协会荣誉提名奖。

典型应用

目前中科院已经发布了最新的Text-to-3D模型——3DDesigner,主要结合NeRF和扩散模型。

用户可以通过文字来生成3D模型,同时还可以根据文字引导对已有的3D模型进行局部改变,保证改变后的模型与原来的风格保持一致。

浙江大学发布了神经渲染模型ELICIT,针对任务的渲染有了突破进展,只需要一张任务图片作为参考,就可以渲染出高精度的3D模型。

OpenAI发布了开源的3D模型生成器——Point-E,可以实现在单块英伟达V100GPU上用1~2分钟生成3D模型,相比过去数小时的生成时间,速度提升了不少。

英伟达也发布了最新的text-to-3D算法——Magic3D。

如图8-14所示,用低分辨率生成的粗略模型再优化到更高的分辨率。

用户只需输入文字,即可生产对应的3D物体。

据称相比于之前该领域最强的算法DreamFusion,生产速度提升到2倍,分辨率更是直接提高到8倍。

图8-14 Magic3D论文截图

LumaAI是目前比较流行的一款3D扫描工具,用户只需要拿着手机对周围的物体扫描一圈之后,就可以生成光影效果非常逼真的3D模型,进行更有想象力的创作。

目前已经有大量视频博主开始利用LumaAI进行创作。

可以预见,这一成果落地后将给游戏和元宇宙世界提供制作海量3D模型的工具,而且让更多人都可以上手使用。

当然,3D模型的生成还面临很多挑战。

一方面是生成时间问题,另一方面是精确度问题。3D内容越精确,需要的时间就越长。

AIGC在绘画领域之所以普及速度较快,与生成时间短到2~3秒密切相关。

但当前3D内容生成普遍需要10分钟左右,这对想要嵌入创作体验的普通用户来说时间略长,难以将其融入创作工具当中。

5 编写代码

代码编写其实是AIGC较早尝试的一个领域。

它的工作方式是在大量代码库上训练模型,例如在GitHub中进行训练,然后在程序员编写代码的时候向他们提出建议。

由于有较好的实用效果,因此获得大家的欢迎。

典型应用

2022年,GitHub和OpenAI合作,推出了名为GitHub Copilot的人工智能工具。

如图8-15所示,Copilot可以根据上下文自动补全代码,包括文档字符串、注释、函数名称、代码等,只要程序员给出一定的提示,人工智能工具就可以补全出完整的代码。

官方介绍其已经接受了来自GitHub上公开可用存储库的数十亿行代码的训练,支持大多数编程语言。

更为重要的是,AIGC可以让普通消费者具备编程开发的能力。

图8-15 Copilot官网截图

相比于Copilot,国内也有类似的研发,一款名为CodeGeeX的代码生成模型已经问世。

如图8-16所示,CodeGeeX是一个具有130亿参数的多编程语言代码生成模型,有20多种编程语言代码语料库,并且是在鹏城实验室的“鹏城云脑Ⅱ”平台上训练而成的。

我们熟悉的C++、Java、Python等十多种主流编程语言都能够支持,并且具有较高的精度。

用户可以通过输入自然语言或者代码片段,为模型指定任务,就可以让模型生成代码并实现相应的功能。

此外,CodeGeeX还支持不同语言所编写的代码之间的相互翻译,输入一段代码之后,可以使用另一种语言写出功能相同的代码。

图8-16 CodeGeeX官网截图

CodeGeeX另一个值得关注的点在于,整个训练过程是在鹏城实验室全国产计算平台上进行的训练,从而也验证了国产深度学习平台与工具的快速迭代能力和竞争力。

目前CodeGeeX已经开发了应用插件,可以在实际的开发环境中通过注释生成代码或者做代码语言的翻译。

让人工智能自动生成代码,不仅是让它在代码领域成为人类的得力助手,更证明了人工智能具有自主分析推理的能力,为进一步探索大模型认知的过程打下了基础。

需要指出的是,现阶段AIGC工具生成的代码在结构、准确度上还有很多问题,需要人工进行审查。

从使用人群范围上看,对非专业开发者来说帮助更大。

但对于专业开发者来讲,现阶段AIGC对生产力的提高仅仅在1.5倍左右,相比于把C语言切换到Python的5~10倍效率提升相比,还有一定差距。

6 游戏创作开发

游戏是一种非常复杂的娱乐形式,不但具有互动性,而且非常强调实时体验,同时需要大量的资源来支持游戏的开发。

以Red Dead Redemption为例,制作成本近5亿美元,花费近8年时间打造,拥有上千个角色,每个角色都有自己的个性、艺术作品和配音演员,玩家可以在近30平方英里(约为77.7平方千米)的世界,超过100个任务里进行游戏体验。

整个游戏有100多位音乐家创作了近60小时的音乐。

要知道,这还不是最庞大的游戏,Microsoft Flight Simulator更加庞大,能够让玩家在整个地球上飞行。

那么微软是如何打造如此庞大的游戏呢?

很明显,这需要人工智能来完成,通过训练人工智能,从而将2D的卫星图像生成逼真的3D世界。

如果没有人工智能的支持,构建这样庞大的游戏基本上不可能。

典型应用

1 游戏里的NPC

在游戏领域,我们可以根据不同的场景来设定非玩家角色(Non-Player Character,NPC)的对应话术。

此前,NPC的对话内容和剧情,需要人工创造脚本来进行设置,由制作人主观联想不同NPC所对应的语音、动作、逻辑等内容,因此创造的NPC个性化不足。

随着AIGC的发展,智能NPC有望成为现实,智能NPC可以分析玩家的实时输入内容,并动态生成交互反应,所有NPC的回答都能够根据设置词语的提示实时生成,从而进一步丰富NPC的能力,构建几乎无限且不重复的剧情,增强玩家的用户体验并有效延长游戏的生命周期。

特别是在养成类游戏中,AIGC提供的个性化生成可以带来画面、剧情的全面个性化游戏体验。

如表8-3所示,实时剧情生成有望在特定框架内生成全新的玩法,增加游戏整体的黏性和叙事的可能性。

目前智能NPC已经在《黑客帝国·觉醒》等游戏中广泛采用。

2018年成立的rct AI公司,目前正在开发智能NPC,可以在游戏中实现具有智能意识的虚拟角色,它们的对话和行为不会重复,而且都是动态生成。

这样一来,在游戏中智能NPC可以表现出不同的性格特征,从而优化玩家的体验。

同时,在游戏中还可以部署大规模智能NPC、智能留存及智能运营策略等。

表8-3 智能NPC的主要分类与特点

2 AIGC在游戏创作中的应用

AIGC在游戏创作中也有较大用处,如表8-4所示。

目前来看主要集中在两个方面。一方面用于游戏场景和故事场景的搭建。

尤其是在开放世界类游戏中,非常受欢迎。

玩家和制作方可以通过AIGC来创建场景和NPC都将会大幅降低成本,并有效提升效率和玩家的参与感。

游戏开发周期长、成本高,通常在时间和资金上需要大量的投入,而AIGC有望提升游戏开发的效率。

例如,游戏中的剧本、任务、头像、场景、道具、配音等都可以通过AIGC生成,从而加快开发速度。

表8-4 AIGC技术在游戏中的应用

另一方面,玩家可以通过AIGC创建自己的虚拟人。

目前海外一家叫作Delysium的游戏已经引入AIGC功能。

如图8-17所示,在未来的开放游戏环境中,不同的玩家将应对不同的游戏剧情和副本,进一步增强游戏的可玩性。

图8-17 Delysium官网截图

与此同时,游戏及所构建的虚拟世界本质上是3D资产的集合,3D资产是现代游戏以及即将到来的元宇宙的基石。

但3D资产比创建2D图像更复杂,并且涉及多个步骤,包括创建3D模型和添加纹理效果。

例如,Scenario公司通过上传自己整理好的素材,就可以训练自己的专属人工智能生成器。

如图8-18所示,Scenario公司的产品利用简单的文字就可以大量生成游戏素材,帮助用户更容易地利用人工智能画出高质量的游戏美术素材。

目前,Scenario生成的结果包括游戏角色、图标、建筑、车辆等,可以保证风格的统一。

Webaverse公司下设多个开源软件组成的开放式元宇宙项目,Webaverse团队目前正在基于该引擎打造一个开放式的元宇宙世界Upstreet。

在Upstreet虚拟世界中,游戏玩家可通过各种AIGC模型随机生成2D或3D资产,并在其提供的以太坊侧链上铸造成NFT以导入虚拟世界。

图8-18 Scenario官网截图

在研游戏Cognition Method也在使用AIGC生成技术协助开发工作,AIGC对于游戏研发中概念原画的制作有较大帮助。

设计师先设想另一个空间的类人型生物,在这一基础上设计师不断调整提示词,运用Midjourney生成结果,并从大量作品中筛选出满足需要的概念原图。

当然,也有直接通过AIGC生成图像作为产品的。

例如,日本一位游戏开发者利用AIGC生成了游戏美术素材,AIGC为游戏创建了所有的飞行器和生物等角色。

有游戏开发人员表示,通过使用AIGC技术,单个图像生成概念艺术的时间可以从3周减少到1小时。

同时艺术家也没有被取代的危险,反而可以将大部分耗时且烦琐的工作交给AIGC来完成。

可以预见,未来AIGC在游戏领域会有很多潜在的可能。

一是带来更多冒险精神和创造性探索。

未来,AIGC将让游戏开发进入新的“黄金时代”,较低的进入门槛将引发更多创新和创意游戏的爆发。

不仅仅因为较低的制作成本,还会因为这些人工智能工具释放了更多、更广发的创造力,例如创建更多游戏场景中的高质量内容的能力。

二是微型游戏工作室或将兴起。

AIGC作为有利的辅助工具,将协助研发人员完成大量任务。

未来我们将看到只有1~2名员工的“微型工作室”也能够制作出更多可行的商业化游戏,未来微型工作室可以创建的游戏的规模将会快速增长。

三是发行的游戏数量快速增加。

Roblox的快速发展表明,提供强大的创意工具可以打造更多游戏。

AIGC将进一步降低门槛,创造出更多游戏。

四是对于个人用户来讲,未来有望按照玩家的意愿来开展整改环境的自动生成。

玩家能够掌握音乐、3D资产和环境氛围,让消费者成为创作者,给他们创作自己消费的内容的能力。

7 绘画产品

AIGC绘画在前面已经做了大量介绍,我们从应用的角度来看看已经在探索的商业模式有哪些。

典型绘画产品的AIGC应用

虽然AIGC绘画目前仍然有很大的争议,但是已经有人在开展商业化行动,开始尝试售卖AIGC绘画作品了。

例如,一家名为Art AI的AIGC画廊,主要是展览并售卖取材于历史的大量艺术收藏品的AIGC绘画。

如图8-19所示,他们利用算法,可以根据历史上众多的艺术藏品绘制出属于自己的作品,之后挑选出那些与过往艺术藏品相似度较高的作品,以确保生成的绘画作品是独一无二的。

图8-19 Art AI画廊官网截图

目前Art AI画廊里的作品价格是600~2000美元,并且销量还不错。

同时,近期OpenAI已经与全球最大的版权图片供应商之一的Shutterstock达成深度合作,Shutterstock将开始出售利用OpenAI的DALL-E生成的图片,并禁止销售非DALL-E生成的图片,完成深度独家绑定。

这项合作不仅是一个传统行业的及时反应,实际上还意味着AIGC商业化变现的愿景(打造一个基于生成全新内容的平台)似乎正在开始落地。

另外,还有利用AIGC制作的系列漫画也已经对外公布。

Campfire Entertainment公司推出了人工智能漫画三部曲《动物寓言编年史》,这套漫画被一些媒体称作第一个用AIGC应用Midjourney完成的漫画作品,不仅有非常好的视觉效果,故事内容也非常老到。

有媒体甚至评价“这些就像是出自一位经验丰富的作者之手”。

目前一些媒体机构已经用AIGC生成的绘画来作为杂志封面,甚至用来作为文章的插图。

一些作家或者小说家也能够用人工智能作画来为自己的文章或者小说配图。

如图8-20所示,《经济学人》(The Economist)前段时间就用Midjourney生成的图片做了杂志封面,AIGC生成图片,还将进一步在各行业普及。

图8-20 经济学人用Midjourney生成的图片做的杂志封面美国版Cosmopolitan杂志也已经使用AIGC工具MidJourney制作了一期封面(参见图8-21)。

图8-21 Cosmopolitan官方网站截图

另外,斯坦福大学计算机科学系的博士生Eric Zelikman还利用ChatGPT和DALL-2进行儿童故事创作,ChatGPT负责撰写儿童故事,DALLE-2负责将内容画出来,相当于两个人工智能创作了一个儿童绘本。

国内也陆续出现了AI绘画的产品,并获得大量关注。比如我们经常使用的腾讯会议,目前与视觉中国合作。

如图8-22所示,在静态壁纸里,用户可以选择AIGC创作的图像,也就是说用户在使用腾讯会议开会的时候,可以把AIGC创作的图像作为自己的会议背景。

图8-22 腾讯会议里加入AIGC功能

腾讯QQ也推出了“异次元的我”,在社交圈引发关注。如图8-23所示,用户可以上传自己的照片来进行AIGC创作,把原图进行“二次元化”。

目前这款应用在海外也有较高的知名度,甚至出现由于使用的人过多而打出限流的公告信息。

国内的个人用户也在不断探索AIGC在不同领域的应用。

例如,B站成为AIGC应用的尝鲜地,用户对歌曲的每句歌词都配上了一幅画面,这些画面则是由Midjourney生成的。

例如《七里香》《孤勇者》《加州旅馆》《波西米亚狂想曲》等热门歌曲,都被用户配以AIGC绘画,引发关注。

一些商家在平台上出售Discord Diffusion、Mid journey绘画工具安装包和提示词,还有一些商家研发了提示词提取工具在电商平台售卖。

在短视频平台上,还有大量教授如何使用AIGC生成壁纸的视频类“壁纸号”。

图8-23 QQ异次元的我AIGC应用

此外,AIGC生成的不仅仅是数字物品,还可以与现实实体和世界产生跨越,用户可以将自己生成的作品变成现实世界中的物品

如图8-24所示,AIGC绘画实体化已经开始落地,目前已经有卡牌游戏的卡片角色、拼图、实体墙绘彩绘素材、文创产品等。

图8-24 AIGC绘画实体产品(图片来源:“不明觉厉的AI绘画,对内容创作者来说有什么用?”一文)

AIGC绘画与NFT结合

传统的艺术市场是以画廊为起点,画廊把艺术品卖给博物馆或者收藏家,然后再流通到以拍卖行为中心的二级市场。

但是这种传统市场已经被非同质化代币(Non-Fungible Token,NFT)的创新所打破,为数字资产的交易提供了一种革命性的方式,可以让AIGC的作品进行交易。

由于每个NFT都存储在区块链中,并由一个加密秘钥保证,它不能被删除、复制或者销毁,不可替代性是NFT与其他区块链加密货币的最大区别。

在传统的互联网中,复制对内容创作者构成极大的伤害,而NFT将稀缺性引入了在线环境,由于交易会在数字账本上被持久地跟踪,因此就能知道谁在什么时候进行了何种购买、花费了多少。

AIGC由于过程的随机性,不太可能重复生成内容,与NFT结合可以将内容生产的作者和内容本身绑定,也可以与内容的原始IP进行关联,尝试和探索的空间巨大。

目前已经有多个创业团队投身其中。

同时,NFT允许世界上任何地方的创作者分享他们的艺术作品并获得报酬,并为创作者和收藏家拆除障碍,创造一个新的数字内容世界,使作品可以在全球各地进行交易。

8 建筑设计

将AIGC融入建筑设计

建筑师和人工智能共同完成建筑的设计工作,从分工的角度来看,建筑设计师提出设计要求和规范指引,工作进程更多地由人工智能来完成。

在整个过程中,人工智能不仅加快了设计进度,还承担了大量过程中的工作。

更重要的是,人工智能帮助建筑设计师从未曾涉足的角度拓宽了设计思维。

具体来看,让AIGC更多地介入建筑方案设计工作流程中,在方案构思、草图绘制、素材生成、动画输出等阶段都有人工智能参与。

如图8-25所示,建筑师会先手绘一张草图,草图中包含了关键的信息,比如用任务定义整张图的全局比例关系,以免人工智能会生成完全不着边际的巨大建筑物。

另外,设计师需要首先绘制出建筑物的基本体量关系,例如说明需要设计几栋楼等内容。

之后就可以让AI进行学习,并不断地生成黑白线稿、素描稿等,如图8-26所示。

图8-25 设计草图

图8-26 AIGC生成的初步设计图

在此基础上,设计师选择图8-26中右下角的图作为工作底图,进一步微调提示词,从而对工作底图的风格和材质进行控制。

同时再根据不同的绘画风格来进行差异化尝试,如图8-27所示。

图8-27 AIGC绘图在设计师的筛选下进一步迭代

这样一来,这个融合多个建筑师风格的AIGC建筑绘画便体现出极大的作品多样性。

很明显,通过设计师把握方向和调整路线,再辅以AIGC快速海量出图,可以极大地提升效率。

用AIGC实现装修设计

此外,AIGC在房屋装修设计方面,也可以大显身手。对房子进行装修设计是很多买房用户的头等大事。

传统的方式是请专业的设计师分析需求、确定风格、制作设计图。

目前海外的一家创业公司Interior利用Stable Diffusion,可以迅速在几秒内生成家具把房间填满,如图8-28所示。

9 其他应用

DIY设计

AIGC的出现让用户的个性化需求和创意设想进一步得到释放,并且在实现的道路上更加顺畅。

目前AIGC已经与创意设计的工作进行融合并开始探索商业模式。

GALA是一个成立于2016年的时尚平台,专门为寻求将创意转化为有形产品的设计师打造。

如图8-29和图8-30所示,GALA和AIGC应用融合,提供定制化服务,设计人员无须直接输入提示词,而是在25个列表中选出基本样式,比如毛衣、衬衫或者手提包;

然后设计师通过AIGC的两个提示词输入需要修改的样式,这两个提示词一个用来描述基于形容词和材料的设计,另一个用来描述所需要的装饰和特征,比如袖口或者拉链等。

CALA的工具是OpenAI的DALL-E提供的API接口实现的第一个实时、公开的第三方应用。

图8-29 GALA服装设计应用AIGC

图8-30 GALA服装设计应用AIGC参见微信公众号“ScienceAI”发布的文章“AI生成的时尚是DIY设计的下一波浪潮”。

同时,Stitch Fix也是一家已经使用人工智能向客户推荐特定服装的服装公司,它正在试验DALL-E 2的功能,期望以后可以根据客户要求的颜色、面料和款式偏好设计服装。

如图8-31所示,Figma公司则在软件中使用了AndorraAI插件,使用提示词来生成渲染以及变体,从而实现鞋子的设计。

图8-31 Figma公司官网截图

目前,国内也有类似的应用,AVAR主要是聚焦在人工智能生成3D数字服装潮玩方向,用户可以通过AIGC生成虚拟服饰,自主搭配款式,之后实时渲染到3D模型,从而可以制作出数字商品。

整个过程可以分为设计、建模、材质、宣传等步骤。

在设计上,AIGC可以批量生成设计稿,量化分析艺术审美趋势。在3D建模上,NeRF进行三维重建和生成,减少建模师的人力投入。

在材质和渲染方面,AIGC可以生成多种艺术风格。

另外,还有用户基于Stable Diffusion进行美甲图案的设计和尝试,并获得了不错的效果。

同时,文身设计也开始利用AIGC,英国伦敦的文身艺术家Amy Smith使用DALL-E进行设计文身,实现了一边与客户讨论,一边看文身作品。

Tattoos AI就在做类似的尝试(如图8-32所示)。

图8-32 Tattoos AI官网截图

AIGC可以激发创作者的设计灵感,利用AIGC生成的概念图作为设计参考,包括婚庆设计、屋内设计、绘画设计、漫画设计等。

在设计过程中,AIGC主要担任的是生成初稿和启发灵感,帮助设计者发现可以用的初始素材,在成为最终作品前,还需要进一步细化和手工调整。

儿童创意实现

儿童的想象力丰富、创造力强,不过儿童的画作经常被成人认为天马行空、胡乱涂鸦,其中更多的是因为儿童身心还没有成长到可以对造型进行精准控制,儿童画作中的创意非常好,很多想法甚至是成年人难以达到的。

利用AIGC可以把儿童的绘画创意进一步放大。例如,小朋友可以通过说出或者写出自己的创意,让AIGC生成图片或者影像,最终变成绘本或者故事书。

再比如小朋友可以通过敲击音符或者哼唱一段音调作为起始,让AIGC帮助自己进行作曲,通过自然的互动,小朋友和人工智能可以共创很多有意思的成果。

内容营销

传统的内容营销一般采用标准化的方式或者由咨询公司进行调研描绘出消费者整体画像,在此基础上制作有效的内容营销模板。

这种方式会遗漏掉部分长尾客户的需求,同时用户的个性化需求得不到响应,因此如何更精准更丰富地开展内容营销成为行业关注的重点。

随着AIGC的发展,我们可以尝试将人工智能生成系统与客户数据系统、营销效果反馈系统的数据打通和深度挖掘,实时响应相关数据并调整生成需求,由人工智能快速迭代相关内容生成,从而提升个性化营销的效率和精准度。

可以发现,在内容营销方面,营销内容的快速更新迭代和个性化内容的生成是AIGC的优势。

尤其是对于快消行业来讲,优化效率和个性化内容,可以通过内容更迭得到更高的价值提升。

因此,在这里AIGC将不仅仅是工具,而是有望成为核心业务的重要组成部分,覆盖营销效果、数据反馈等部分,构建起“智能化营销洞察的智能平台体系”。

AIGC的引入可以使广告创意从“推荐”分发个性化进入“生成”个性化,更加“千人千面”,可能会产生新的主流服务模式和计价模式

诊疗与心灵慰藉

医疗领域的门槛较高,当前大部分AIGC企业由于专业领域的限制而难以发挥技术优势。

但是通过AIGC手段和技术,医疗行业可以给病患带来更精准的干预和治疗。

在阿尔茨海默病治疗方面,传统的诊断方法是通过临床评估来判断,并且需要对患者进行较为长期的跟踪。

相比之下,患者在早期的说话方式会有微妙变化,比如交流上变得迟疑不决,使用错误的语法或者突然忘词等。

为此,德雷克赛尔大学的研究人员将GPT-3与神经学诊断联系起来,通过使用公开的阿尔茨海默病患者和正常人的语音记录数据集进行训练,从而让GPT-3来帮助医生识别出阿尔茨海默病患者语言上的细微差别。

目前该项研究已经发表在PLOS Digital Health杂志上,相关研究表明,基于GPT-3的文本嵌入是一种很有前途的阿尔茨海默病评估方法,并有可能改善痴呆症的早期诊断。

在心理治疗方面,利用虚拟人和AIGC技术来模仿心理治疗师或者医生助手,通过AIGC生成式对话与患者建立深层次的信任,之后通过个性化的沟通来达到治疗效果。

清华大学黄民烈教授创办的聆心智能科技有限公司,沉淀了海量中文对话收据,并基于大模型在情绪支持、倾听陪伴等方面构建了特有的模型矿机,通过以生成式对话模型为核心,来进入心里健康领域。

DeepScribe公司的产品主要是记录医患的对话,并使用人工智能为电子健康记录生成结构化的报告

       

【声明】内容源于网络
0
0
数组智控产业发展科技院
以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
内容 986
粉丝 0
数组智控产业发展科技院 以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
总阅读2.8k
粉丝0
内容986