短视频生产进入“一键式”时代，AI如何定义智能影像？- 大数跨境

首页

短视频生产进入“一键式”时代，AI如何定义智能影像？

文化科技融合汇

2022-04-08

导读：用程序代替人类思路，用AI定义视听，高质量视频制作如何进入普惠化时代？作为新生产力，智能影像生产技术如何给短视频时代的内容制作提供永动机般的技术支撑？

作为新生产力，智能影像生产技术如何给短视频时代的内容制作提供永动机般的技术支撑？

迪士尼研究院开发了一个系统，可以从自然语言故事中提取信息，形成可视化的动画或视频的展示，与迪士尼其他技术整合用于电影的创作制作及后期。通过这项技术，导演可以更直观地了解角色将如何在场景中进行表演。过去，拍摄影片需要先有剧本来描述人物及场景，这一步骤耗费大量时间。

凭借速成、通俗、交互性强的特性，短视频填充着用户的碎片化媒介使用需求，逐渐向全场景持续渗透。短视频作为热门的低门槛创作形式，它自由、开放的创作空间，没有特定的表达形式和团队配置要求，更具传播性，提供了良好的UGC生态。

一键式智能化、批量式智能影像生产技术的应用，大大提高了视频创作的效率和质量、降低了制作成本和难度。

那么，如何利用智能影像生产技术，让高质量内容制作进入到普惠化时代？专业级短视频制作能力是否每个用户都能体验到？

智能影像生产技术是什么？

影像生产技术以计算机视觉（Computer Vision）与计算机图形学为基础。在深度学习广泛应用之前，视觉算法一般分为：特征感知、图像预处理、特征提取、特征筛选、推理与识别。

智能影像生产技术分为两部分：影像智能化理解和影像自动化生成。在感知层面，人工智能技术为静态图片识别乃至多模态影像识别带来了突破；在思考层面，基于多模态识别结合商业需求可以形成深入的影像智能化理解。以感知、思考为基础，在行动层面，人工智能技术为自动化影像生产带来了强劲动力。

企业级视频行业正式开始内卷，

而卷的背后是研发。

诸如PR、AE、AU等专业影像编辑因为太专业，没有一定时间的学习很难上手。于是，各大自媒体平台为了吸引创作者，纷纷推出创作工具，大有群雄逐鹿，得中原者得天下之势。

以下介绍几家在国内发力于智能影像生产的企业。他们分别有哪些针对性的技术支撑？怎么做到将深奥复杂的技术普惠化？以及分别落地于哪些场景和领域的投入？

影谱科技

央视网与影谱科技联合打造的虚拟主播系统，以AI生成技术为内容创作底层系统，智能剪辑、智能3D成像系统为创作工具。

简单来说，影谱科技的影像自动合成技术，是通过把视频、图片、声音轨根据效果设定，将转场、区域、动画的脚本进行自动化的合成拼接，创作出新影像。

这项智能影像生产引擎叫做MAPE，它支持大批量数字内容视频化，融合多模态图像识别、情感语境、关键帧捕捉等关键技术，对视频元数据进分析和理解，进而机器可以自动化生产一段全新视频。

根据其公开的实践数据，影谱科技AI生成引擎生成一段60s视频的总成本与传统方式相比降低79.8%以上，而生产率最高可以提高百倍以上；检索一段60s视频内相似帧图像或特定图像，所需总成本与人工相比降低99.73%，而错误率降低10倍以上。

影谱科技覆盖了各硬件终端与计算机芯片、贯穿可视化场景，除了可以批量自动化处理，还能够子像素级分析、智能叠加和无痕展示等特征，深度覆盖了智慧文娱、智慧媒体、智慧科教、数字商业等核心场景。

新华智云

作为中国首个媒体融合国家重点实验室参与者，新华智云首提MGC（机器生产内容）概念，并用自研的“媒体大脑”生产了第一条MGC视频新闻。这条时长2分08秒的视频制作只耗时10.3秒。

而后，新华智云推出“媒体大脑•MAGIC短视频智能生产平台”，聚焦研发视频生产的自动化技术，只需上传一个Excel表单，就能一键生成对应的数据动画视频。

媒体大脑MAGIC集纳了自然语言处理、视觉语义理解、音频语义理解等人工智能技术。

比如，直播剪辑机器人可以在直播场景提供人脸识别、语音识别转文字等智能能力，帮助编辑在直播过程中精准定位，实现直播流快速剪辑，内容实时分发。

突发识别机器人能够自动识别突发事件。当面对海量媒资素材时，将提醒媒体人优先处理，自动识别突发事件中有价值的新闻片段。该机器人背后的算法模型的准确率高达95%。

近日，新华智云的两项发明专利获国家知识产权局授权：旨在解决视频背景音乐需人工介入问题，和基于视频单一图像特征推荐背景音乐不足问题，该系统能够根据视频图像，推荐与之相匹配的背景音乐；以及系统能自动识别和精准定位视频中的渐变和突变镜头，解决因镜头晃动或虚焦造成的误识别问题，提高视频内容的识别准确度。

大数据和人工智能技术，结合对媒体场景的深度理解，帮助实现“媒资素材搜索管理”和“短视频生产”的过程，逐渐形成一体化、智能化、工业化。

旷视科技

旷视的“人脸关键点识别和色彩融合”AI算法，整合“面部特征、皮肤分析和虚拟试妆”诸多功能，助力了美妆行业营销和零售场景创新。

简单的功能背后，基于旷视科技自主研发的AI+CV模式超画质算法。通过AI来对高画质数码相机的成像特性进行学习，还原景物原有的细节纹理，优化方面涵盖了画面细节增强、动态范围提升、降噪效果提升等。

可有效解决清晰度不均匀、主体边缘线条弯曲、部分位置重影、线条断裂错位、重复纹理错位等算法中的常见问题。“物体识别”“文本识别”“图像分类”“物体检测”等诸多核心功能旷视均可快速实现。

通过多个摄像头的协调配合，AI技术加持的手机摄影可以实现媲美单反相机的拍摄效果，为终端消费者带来更好的拍摄体验。目前已应用于在多款畅销手机机型中。

深圳来画

随着疫情时期视频会议软件爆发式增长，然而实际操作中，远程办公软件的痛点——不够真实、形式单一等问题逐步暴露出来。用户需要不断切换软件、画面等操作，严重割裂了工作的连贯性，降低沟通效率。

AR 视频演示工具“来画 Soom”这款将实景与虚拟相结合的内容演示工具，高效率、个性化的解决了演示的难题。

来画Soom结合AI智能手绘和PPT一键转视频技术，用户可以在云端轻松完成短视频的制作。新研发的AI智能识别技术，做到了视频演示、录制、拍摄、制作、剪辑一步到位。

视频演示软件是属于To B类的产品，但本质还是信息的传递沟通，视频作为主要的沟通形式，自然需要更强的演示功能。

同时，2000万+张来画原创素材和丰富的模板，能够制作适合不同场景的视频，如今运用在视频会议、在线教育、微课培训和泛知识科普等多个场景，服务于媒体、金融、教育等各行各业。

腾讯智影

如果做视频自媒体或小视频娱乐，或不想露脸，可以通过这个一键式的软件来生成虚拟主播，使用智影数字人播报功能，几分钟即可制作完成。

这是腾讯日前出品的一款在线智能视频制作平台，为创作者提供了高效的在线视频处理功能。点击“数字人播报”功能，输入需要播放的文字内容，点击右上角的“生成视频”即可一键生成虚拟主播的播报视频。

当然也可以更换其他风格的主播，切换相貌、服装及主播在视频中的位置。智影支持逐帧剪辑、多轨制作、画面裁剪与视频去水印等，也支持在线配音、音频分离、语音转字幕等 AI 剪辑能力来赋能视频内容创作。

最重要的是，编辑和预览起来没有丝毫的延迟顿挫感，就和在本地操作的感觉一样，使用感直接拉满。并且提供了一些网络素材，类似转场、贴纸、特效等等功能一样不少。

智影非常适合制作短视频的轻度用户，不需要额外下载软件，直接在网站中就能实现创作，目前智影里所有功能都是免费的。

VidPress

VidPress的用户仅需一键输入新闻图文内容的链接，选择旁白音色、视频时长、清晰度后，其余全部工作交由平台自动化完成。视频素材智能化聚合、解说词生成、语音合成、音视频对齐和渲染导出整套制作流程9分钟就能完成。

VidPress由百度研究院孵化，是一款支撑通用型、大规模生产的智能视频合成平台。

用户输入图文内容后, 例如输入某条新闻事件的链接，平台将基于NLP模型进行语义理解, 充分保障素材内容的丰富度和相关性。

VidPress每天可以生产500到1000条视频，整个过程从热点发现到最终的视频生成完全自动化。其生成的视频播放完成率比好看视频的大盘高出15个百分点，一些热门视频已经有了85万的播放量，足见AI新闻视频深受观众喜爱。

Yiwealth

以Yiwealth（应财智云）目前生产的行业首个基金产品类的自动化视频——“3分钟看懂个基系列”为例，Yiwealth精筛用户关心的的核心信息，将枯燥的PDF版产品介绍进行视频化呈现，简洁高效地满足当下用户的信息获取偏好。

近日，Yiwealth重磅发布了一款智能视频生产平台，依托其自主研发的金融信息智能运营系统“万流”，通过“数据+技术+创意”的方式，实现从创意设计、信息提取、模块化构建、动态渲染、智能配音等环节的全链路自动化生产。

Yiwealth总经理田力表示，“目前市面上大部分股票、基金的产品页展现形式单一且冗长，用户无法高效获取核心信息”“无论是自建团队还是寻找外部内容供给，都会面临投入高、产出低的难题”。

该平台目前已获得多家头部券商合作订单，解决用户理财需求和优质理财内容供给的不匹配问题，助力金融机构智慧运营模式升级。

深声科技

日前，深声科技与腾讯音乐集团（TME）合作，通过AI智能语音合成技术、情感语音合成等技术，为有声书行业及在线音频领域提供数字化、自动化、智能化服务。

此外，深声科技还为一站式教育内容方案商格灵信息科技提供语音合成解决方案，其语音合成技术有效提升教学内容的制作效率，降低教学材料成本，合成效果在保留了真人教师声音的情感状态、韵律停顿的基础上，提升了在线教育的整体交互体验和学习的趣味性。

深声自主研发的“声音克隆”技术在音色还原度、发音准确率、音质清晰度等方面具有明显的行业技术优势。可控的声学模型和卓越的声码器模型，能快速学习目标人的语音特征。

目前已支持涵盖武侠、悬疑、言情、科幻、明星、粤语、英语等多种特定场景的音色，与不同题材的文本风格相对应。在智能手机、智能电视、智能音箱、智能车载、智能家居等终端设备上落地。目前已获得小米、金山、畅读书城、中国科学院、探迹、同行者等客户的青睐，合作覆盖多个应用场景。

AIGC逐渐走向成熟，

短视频生产进入自动化时代。

智能影像辅助数字内容的产制播全过程。未来大致呈现以下三个趋势：智能影像生产技术提升内容创作效率及可视化程度；智能影像成像技术进一步提升沉浸式的内容展现能力；智能影像生产与商业化同步，实现数字化商品场景化展示。

在短视频行业，很多企业和自媒体却苦于没有合适的内容生产工具，难以进入短视频赛道。然而许多智能影像生产平台解决这一痛点。不需要专业团队和专业设备，不需要花费高昂费用，就能快速生产出有趣的视频内容，大大提升创作效率，对场景的深度运用，助力自媒体和企业更好地把握短视频流量。

这依托于AIGC(人工智能生成内容)的概念兴起，如今AIGC已成为UGC、PGC之后的一种新兴的内容生产方式。基于大数据建模和算法深度学习等技术，从生成文字、视频，再到配音、手语翻译，AIGC逐渐走向成熟。

AIGC带来了哪些影响？

人工智能生产的内容类型多样，包括机器人写作、机器人聊天、AI主播等，它突破了时空壁垒和人工局限，促进了算法时代媒体融合从内容科技、话语体系、媒介组织到平台建设的一体化发展。作为新生产力，其“听说读写”能力还可以应用到更多领域。

比如虚拟偶像，AIGC可以帮助其像真人一样思考、说话、唱歌、跳舞，并沿固定风格构建稳定“人设”。再比如客服行业，中国联通与百度，建立了面向对话理解问题的专用预训练模型，降低了45%以上的数据标注量，显著提升了智能客服业务开展效率。

结语

如今，影像相关的市场规模相当可观，除了与影像源头密切相关的文娱产业，智能影像还将赋能广告营销、教育、游戏、零售乃至制造等相关行业。

无论互联网的形态如何变化升级，优质内容仍是变化中的压舱石，AI一键式不过是加快了精准内容的生产，创作的根本仍是以人为本。

- THE END -

#关于我们

中国（南京）文化和科技融合成果展览交易会，简称“文化科技融交会”或“融交会”，是全国首个聚焦文化和科技融合的专题性展览交易平台，每年10月在南京举办。

展会由江苏省人民政府指导，江苏省委宣传部、江苏省科学技术厅、江苏省委网信办、江苏省文化和旅游厅、江苏省广播电视局、南京市人民政府联合主办，南京市委宣传部、南京市科学技术局、南京市委网信办、南京市文化和旅游局、南京市文化投资控股集团联合承办，围绕“新时代新体系新体验”主题，聚焦广播影视、动漫游戏、演艺娱乐、文化旅游等行业产业数字化转型需求，展示和交易新技术、新产品、新一代解决方案，树立文化科技融合的“风向标”，展示数字文化产业的“创新源”，打造产业数字化的“指南针”。

2018年至2021年，融交会已成功举办四届，累计有37个国家文化和科技融合示范基地、2100余家市场主体参展；吸引185家投融资机构、220个商协会、163家文旅集团景区、20000余位专业观众参观展会和参与论坛等活动；促成现场项目签约金额超761亿，全网阅读量达8.4亿。