AIGC的不足与挑战- 大数跨境

首页

AIGC的不足与挑战

数组智控产业发展科技院

2023-05-12

导读：文章来源《AIGC未来已来》1　技术与产业方面的不足与挑战作为新的一种内容生产方式，AIGC迅速崛起的底层原

文章来源《AIGC未来已来》

1　技术与产业方面的不足与挑战

作为新的一种内容生产方式，AIGC迅速崛起的底层原因是人们对内容的需求越来越旺盛。

同时内容生产也需要相应的迭代升级，这让AIGC从辅助内容创作有望向直接创作演进，并胜任协作、绘画、作曲、设计等诸多创意类工作。

AIGC的出现如同当年马车时代出现汽车、工业时代出现互联网一样，势必会出现种种问题，这都需要一个曲折的接受和利用的过程。

目前，从技术和产业角度来看AIGC还面临很多挑战。

首先，现有AIGC模型需要具备更高的可控性，这包括更精准的编辑能力，支持对细节的反复修改、打磨和迭代等。

其次，进一步提升输出质量。

最后，在满足自定义的同时，可以让成本可负担，实现批量化。

目前已有的一些模型可以做出有针对性的微调，这对于AIGC技术应用于商业级创作工作流会带来更多帮助。

细节仍需打磨

需要长时间调整AIGC绘画生成的图像才能得到想要的作品。

AIGC绘画虽然在效率上有很大的提升，但是也面临很多细节问题。

例如，AIGC产生的图像往往缺乏主体性，就结构的细节部分而言，大多处于严重扭曲的阶段，经常出现色块堆积、过度不自然和线条粗细变化不均匀等问题。

这类图像的画面颜色虽然鲜亮，但是整体结构混乱，可以说现在的AIGC绘画还比较“浮皮潦草”，甚至可能出现极度恐怖不宜展示的画面。

比如对人的手部的生成，效果往往令人难以接受，如图9-1所示。

图9-1　部分AIGC生成的手部细节

部分专家认为这可能是由于人的手部结构丰富——人的一只手有超过20个关节，而在AIGC训练的图片中，手部经常不是核心部位，因此受限于不同角度、不同距离、不同手势，人工智能难以驾驭。

甚至在动画片中各种角色也可能被标注为“手”，如图9-2所示。

这些奇怪的手，无论是性状还是手指都不相同，但是都会被标记为“手”，模型可能认为它们的形状都是合理的。

图9-2　《精灵宝可梦》《黑猫警长》《机器猫》和《忍者神龟》的动画截图

究其原因，我们会发现AIGC广泛应用的扩散模型是出现问题的主要原因之一。

扩散模型的训练是基于有文字描述的图片数据，通过对图片反复降噪，人工智能学习了如何生成符合文字描述的图片。

由于文字描述的往往是整张图片的内容，因此AIGC生成的结果对整张图片的结构和光影效果把握得很好，但是对于细节会经常失准——这是因为大量细节往往缺乏文字描述，同时相当复杂多变。

但是，细节往往是画家艺术风格和水平的决定性因素之一。

成本问题

当前，AIGC生成高清图像的训练时间和成本依然居高不下，尤其是在AIGC盈利模式尚不清楚的时候，成本问题大幅上升，难以满足普通人的需求。

如果只是简单输入一段话，那么大概率会得到一些莫名其妙的画面。如何制作高质量的AIGC绘画作品，目前没有可以遵循的科学指导。

AIGC在替代现有人力方面还有很长的一段路要走。

同时，在基础技术层面，如果没有网络加速，基本上一轮训练会以月为单位来计算，这并不是日常模型训练能够承受的。

同时虽然Diffusion经过优化，但还是需要经过十几次到几十次的迭代，这样的迭代次数严重限制了生成效率，从而导致向移动端转移变得困难重重。

例如，在移动端运行，意味着每次为用户提供服务，后台都会承担服务器的带宽成本和图片的上传下载，整个过程会产生较高的成本，同时用户需要等待的时间为5～10秒，因此，就移动端的体验来讲还有很多需要提升的地方。

AIGC要想落地，在与人工的博弈场景中，应提供相较人力成本足够低的优势，否则难以被用户所接受。

以机器视检为例，传统企业的质量检查环节主要的考虑因素就是成本，当人工智能质检方案想要替代人工质检方案的时候，首先需要说服企业负责人在保证精度和准确率的同时成本不高于现有质检员的收入水平。

输出结果不一致

目前，输入一样的提示信息，不同平台生成的图片内容和质量差别巨大。

究其原因：

一方面是自然语言的理解在处理一些空间关系上还存在误差，这也是造成空间位置、数量不精确的主要问题；

另一方面数据集的质量、合规性、风格偏向都决定了内容生成的质量。

另外需要指出的是，目前高质量的“文本-图像”的数据集主要以英语为主，其他语言都需要在整个流程前面增加翻译工作，这对翻译模型的挑战较大。

大模型到大应用的挑战

基于深度学习算法数据越多，模型鲁棒性越强的特点，当前的大模型的规模只增不减，规模大已经成为标配。

例如，Open AI推出的GPT-3的参数已经超过1750亿个。

但“数据投喂”并非一种技术路径上的创新，更多的是在工程领域的微调。需要指出的是，模型规模越大，其实越难以在现实场景中落地部署。

同时“海量数据”并不等同于“海量高质量数据”，有可能会导致产生反向效果。

AIGC的发展离不开预训练大模型的不断精进。

大模型虽然在很多领域都表现出良好的使用效果，但是这些效果作为展示甚至噱头之后，很难形成良性的商业价值，与大模型的训练成本、基础设施投入更是相差甚远。

如何推动“大模型”向“大应用”转变，正在成为关键的考验。

随着AIGC的破圈以及由此引发的大量关注，可以看到大模型商业化的潜力正在清晰化：

一方面大模型企业可以根据C端用户实际“按需提供服务”和商业转化；

另一方面带动对云计算、云存储的使用量上升。

将AIGC从“尝鲜试试看”变成大众频繁使用的需求，再到与具体行业和领域深度结合，依托我国丰富的产业需求和应用场景，有望为大模型商业化和长期价值探索一条新路径，但整个过程还有较长的路要走。

通用性较差

当前热门的AIGC系统虽然能够快速生成图像，但是这些系统能否真正理解绘画的含义，从而根据这些含义进行推力并决策仍是未知数。

一方面，AIGC系统对输入的文本和产生的图像不能完全关联起来。

例如，用户对AIGC系统进行测试，输入“骑着马的宇航员”和“骑着宇航员的马”内容时，相关AIGC系统难以准确生成对应的图像。

因此，当前的AIGC系统还并没有深刻理解输入文本和输出图像之间的关系。

另一方面，AIGC系统难以了解生成图像背后的世界。

了解图像背后的世界，是判断AIGC系统是否具备通用人工智能的关键。目前来看，AIGC系统还难以达到相关的要求。

比如，在Stable Diffusion中输入“画一个人，并把拿东西的部分变成紫色”，在接下来的9次测试过程中，只有一次成功完成，但准确性还不高。

显然，Stable Diffusion并不理解人的双手是什么。

知名AI专家发出的调查也印证了同样的观点，86.1%的人认为当前的AIGC系统对世界理解得并不多。

OpenAI的一位研究人员曾指出，“DALL-E不知道什么是科学，它只是试图编造出一些视觉上相似的东西，而不理解事物的含义”。

同时，AIGC系统在当前具有明显的“碎片性”，即各个环节难以串联形成协同效应。

例如有的创作者是做3D设计的，有的是做平面设计的，每类创作者都在试图构建自己的工作流。

在这个过程中，AIGC系统如何在提升创作效率的同时实现工作流程中的任务管理，显得愈发重要。

2　在确权方面面临的挑战

AIGC作品的著作权归属

AIGC在法规方面主要体现在无法确权以及版权争议。

市场的收益来源于市场交易，市场交易的基础在于确权。

如果AIGC无法确权：

一方面会导致侵权行为得不到有效遏制；

另一方面也会减少人们对该领域的关注和热情。

AIGC之所以发展迅猛，是因为模型创新。

但是AIGC模型使用的训练数据包含明显受到版权保护的视觉素材。

从艺术家的视角来看，模仿其艺术风格和美学特点的行为是不道德的，有违反版权的风险。

Stable Diffusion训练数据集来自LAION-58，而LAION-58包含50多亿张图片以及与匹配的文本标注，其中涉及大量受版权保护的内容，这些内容归艺术家或者独立的摄影师所有。

这些版权争议可能让很多抱有想法的艺术家的生存愈发艰难。

同时，普通用户在使用AIGC的过程中也会大量参照现实艺术家或者创作者的作品，训练学习素材中可能包含大量的艺术家作品，或者在输入提示词的时候直接加入某些艺术家的名字，这种行为容易造成内容版权风险。

2022年8月，AI绘画网站mimic的测试版上线，该网站允许用户上传AIGC绘画作品，用户只要上传30张插画就可以生成风格相同的插画。

该网站刚上线就遭到日本大量绘画师的抵制，他们发表了“禁止将我的作品用作AI作画”的声明。

甚至有些绘画师直接删除了在推特网站上的画作，以免被盗用。

同样是在2022年，海外互联网上出现利用人工智能学习32张绘画作品生成同一种风格的绘画作品，而该绘画作品的作者在这一领域已经11年之久，但不到3小时就被AIGC模仿出其绘画风格，而且成本不到15元。

另外，部分艺术家在知名图像网站Artstation上发文抵制人工智能绘画，并要求出台正确的法律法规保护艺术家的利益。

更为严重的是，马里兰大学的研究成果显示，AIGC生成的图像并非都是未曾出现的。

研究人员以Stable Diffusion为例，发现通过随机输入的提示词生成的图像中，1.88%的生成图像与数据集中的某张图像出现了超过50%的相似度。

也就是说，AIGC也存在着大量抄袭问题。

著作权争议的潜在解决方案

AIGC绘画面临的版权问题并非独有。

AIGC是数字技术发展的产物，但是数字技术是把双刃剑，虚拟伪造的图画可能难以禁止，但是我们不能因此就禁止AIGC的发展，其中涉及的版权问题同样可以通过数字技术来解决。

比如可以将画家的作品上传到区块链中，从而加强技术溯源能力。

这就是一条可以尝试的解决之道。

版权的本质是对创作者知识产权和收益权的保护，版权概念的出现要早于互联网，其本身的内涵也会随着时间和技术的变化而变化，未来对创作者的分成机制有望成为新的版权形式。

例如，如果你的图像被AIGC模型训练了，那么将来使用这个模型创造出来的所有作品，其商业收益你都可以获得分成。

或者使用你的图像训练了一个私有模型，那么别人可以直接付费购买这个私有模型进行内容创作。

AIGC在引发生成图像热潮的同时，未来也将在音视频领域进一步拓展和普及。

AIGC作为一项刚出现的技术，就如同婴儿一样，将经历从模仿到创新的过程。

首先进行模仿，之后才会有创造甚至超越的能力。

AIGC强调的创造力应该是在学习的基础上进行创新。

因此应该鼓励创作者和AIGC一起创造更美好、更有趣的内容；

同时也可以鼓励用户用更创新的方式来创作内容。

毕竟只模仿一位艺术家的风格不是长久之计。正如AIGC应用代表性产品Midjourney的创始人大卫·霍尔兹(David Holz)所说：“汽车比人类快，但并不意味着人类停止了行走。

我们将人工智能技术视为想象力的引擎，这是一件非常积极和人性化的事情。”

法律监管出现争议

版权的不确定使得当前关于人工智能的案件结果出现很多争议。2022年2月，美国版权局就因“缺乏人类作者身份”这一因素驳回了AIGC生成图像的版权请求。

但早在2021年，澳大利亚一位法官却裁定人工智能创造的发明有资格获得专利保护。

由此可见，在人工智能自身和技术发展过程中，各国的立法和看待事物的角度甚至决策机制还处于矛盾阶段。

虽然我国的《著作权法》明确规定，作品是指“文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果”，但是这并不意味着AIGC没有可著作权性。

尤其是当前的AIGC并不具备独立创作的能力，所有的输出都是在设计者或者使用者允许范围内进行数据挖掘和分析，形成模型之后再根据使用者输入的内容生成的作品，整个创作过程都离不开人类的控制，能够体现使用者的判断和选择。

因此，部分学者开始倾向于将AIGC作品看作受《著作权法》所保护的作品。

当然，也有专家指出当前AIGC处于发展初期，谁拥有AIGC生成图像这一问题可能远没有到需要明确的时候，法律风险不可避免。

随着AIGC的发展，全球范围内与人工智能相关的案件正在快速增加。根本原因在于大量技术发展的速度远快于法律法规。

同时，如何在理性约束和强制干涉之间进行取舍，也是当前法律在其发展过程中“矫正”新兴行业的发展所需要做的事情。

毕竟，在推动市场公平的同时，法律也需要最大限度地减少传统框架对科技发展的阻碍。

企业态度不统一

AIGC应用企业的态度比较模糊不定。

DALL-E对外宣布，用户可以拥有DALL-E创造图像商业化的全部使用权，包括重印、销售、商品化等，但是生成图像的所有权却是不明确的。

Midjourney表示输入提示词的人享有生成图像的版权，但对于提示词版权的归属却没有定论。

在国内，百度文心表示，非常重视图像的版权问题，如果平台未来开放出来的生成图片侵犯了原作者的权益，百度公司会提供投诉反馈通道。

国内AIGC的创业公司6Pen声明不保留版权，生成的图片版权归属生成者，可随意自用或商用。

目前一些创作者通过售卖优秀的AIGC绘画作品版权、与传统图库商业合作分成、教授学员使用AIGC创作课程等多种方式来变现。

伦理与安全风险

部分开源的AIGC项目对生成的图像监管程度较低。

一方面，部分数据集系统利用私人用户照片用于AIGC训练的现象屡禁不止。

这些数据集正是AIGC等图片生成模型的训练集之一。

例如，部分数据集在网络上抓取了大量病人就医的照片进行训练，且没有做任何模糊处理，这就导致用户隐私保护堪忧。

另一方面，一些用户利用AIGC生成虚假名人照片等图片，甚至制作出违法内容。

例如，Stable Diffusion对生成内容基本不做审核过滤，只包含一些关键词过滤，但是这种过滤在技术上是可以轻松绕过的。

一些用户在使用后指出，Stable Diffusion会生成暴力等违法内容，还可以描绘公众人物，甚至可以高度仿制艺术品或者有版权保护的图像。

例如，在苹果公司的App Store中，位列“照片和视频”类别第一名的Lensa AI是一款关注度较高的AIGC应用。

该应用会根据用户上传的10张照片利用Stable Diffusion生成各种数字艺术风格的肖像，但是多位用户反映AIGC会生成不雅照片。

由于AI本身还不具备价值判断能力，为此一些平台开始进行伦理方面的限制和干预。

OpenAI已经直接过滤掉很多敏感词，禁止用户输入特定任务或者与政治相关的词语。

同时，在训练之前会对数据集进行筛选，移除包含明显暴力等违法及其他恶劣内容的图片，还采用了人工审查员检查被标记为可能有问题的图像。

例如，DALL-E 2已经开始加强干预，减少性别偏见的产生，防止训练模型生成逼真的个人面孔等。

Phenaki提示了问题数据对于人工智能模型的影响和潜在风险，并过滤暴力等内容以及文化偏差等风险，并在短期内不会开源Imagen Video模型。

部分企业开始尝试使用技术手段，包括“不可见水印”等技术，让系统能够自动识别图片的真假。

但相关法律法规的空白和AIGC应用研发者本身的不重视将引发对AIGC创作伦理与安全的担忧。

同时，一些专家指出，“让技术发展一段时间，让技术的问题有较好的暴露，在有一定了解和客观认识之后，从法律政策的角度去约束和规范它，从而形成更好的发展”。

总体目标是在技术和人工智能服务于人类这一前提下，让伦理问题在未来有较好的解决方案。

【声明】内容源于网络

数组智控产业发展科技院

以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

内容 986

粉丝 0

数组智控产业发展科技院以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

总阅读2.5k

粉丝0

内容986