大数跨境

【干货】AIGC的产业地图

【干货】AIGC的产业地图 数组智控产业发展科技院
2023-03-05
3
导读:文章来源《AIGC:智能创作时代》AIGC的产业链上有哪些创业、投资的商业机会?我们并非使用技术,我们生活在

文章来源《AIGC:智能创作时代》

AIGC的产业链上有哪些创业、投资的商业机会?

我们并非使用技术,我们生活在技术之中。

——高佛雷·雷吉奥(Godfrey Reggio)

阅读至此,各位读者对AIGC的缘起、技术、应用都有了系统性的理解,但落脚到投资、创业究竟会有哪些商业机会?

产业链各个环节的价值体现在何处?都有哪些典型的玩家和商业模式?

本章将带着这些问题从商业机遇的捕捉角度入手,对整个AIGC的产业进行详细描绘。

总体来看,整个AIGC的产业地图可以分为三类:上游数据服务产业、中游算法模型产业、下游应用拓展产业(图5-1)。

·数据服务:作为智能机器的“食物”和数字经济世界的生产要素,数据在被“喂”给机器之前,常常会涉及查询与处理、转换与编排、标注与管理等前置步骤,而在整个数据的使用过程中也离不开治理与合规方面的管理工作。作为AIGC的源头,相关数据服务产业孕育了很大的商业机会。


·算法模型:人工智能之所以能判断、分析、创作,主要是因为存在支撑这些功能的算法模型。因此,训练算法模型也就成为整个产业链中最“烧脑”、最具技术含量和最具商业潜力的环节。在数字世界,围绕着如何让算法模型更聪明的命题,诞生了包括人工智能实验室、集团科技研究院、开源社区等主要玩家,构成了整个产业链的中游环节。


·应用拓展:经过数据训练后的算法模型最终会在下游应用拓展层完成“学以致用”的使命,根据应用场景的模态和功能差异诞生出文本处理、音频处理、图像处理、视频处理的各个细分赛道。每个细分赛道里都有许多创新企业在相互较量,这也是当前风险投资机构最热衷投资的环节。

图5-1 AIGC产业地图

第一节 产业上游:数据服务

假如人工智能算法是一个生物,那么喂养这个生物的食物便是数据。

无论是机器学习还是人类学习,其分析、创作、决策的能力都是来自知识的学习和经验的积累。

不同的是,机器可以不眠不休地学习,不会因为情感和情绪降低学习效率,更不会因为控制不住打游戏、刷短视频的冲动而放弃学习。

因此,在机器学习的世界里,“头悬梁、锥刺股”“找家教、开小灶”这类纯粹延长学习时间的内卷策略通常并不奏效。

在这种情况下,真正决定不同机器之间能力差异的就是数据的质量

AIGC的产业链上游是一系列围绕数据服务诞生的生产环节,我们可以用农作物加工过程作一个虽不严谨但易于理解的类比。

·首先是数据查询与处理,这个环节相当于把刚从农田里收割的农作物分类打包;


·其次是数据转换与编排,这个环节相当于把分类打包的农作物运送到食品工厂后制作成包装精美的成品;


·再次是数据标注与管理,这个环节相当于给来自工厂的成品商品打上条码和标价;


·最后是数据治理与合规,这个环节相当于库房的安保人员要确保商品按照相应的规则合理存放。

图5-2展示了AIGC产业链上游的全景,最右列是上游主要的公司,右侧第二列是公司类型,这些不同类型的公司可以被归类到数据服务的四个主要环节中。

图5-2 上游数据服务层产业地图

一 数据查询与处理

通常,数据需要存储在一个合适的地方,等待着人类输入指令去提取符合要求的数据进行处理。

一方面,这种存储可以像现实世界中的淡水湖一样,直接把来自四面八方的水源汇聚在一起,不作区分,这种存储架构被称为数据湖(Data Lake)。

另一方面,这种存储也可以像农场里的仓库一样,将数据像瓜果一样收集后清洗好,然后在仓库里一个个摆放整齐,这种存储架构被称为数据仓库(Data Warehouse)。

近几年,在技术进步和商业发展的推动下,“湖仓一体”(Data Lakehouse)的数据存储模式开始出现。湖仓一体模式将数据湖的灵活性和数据仓库的易用性、规范性、高性能等特点融合起来,能够为企业带来降本、省时、省力等多种好处。

·降本:湖仓一体模式可以降低数据流动的成本,相当于把天然农场变成了粮仓。


·省时:湖仓一体模式可以降低时延,类似于省掉了农作物从农田搬运到仓库的环节,这样可以节省搬运时间。


·省力:对企业而言,湖仓一体模式可以避免在数据架构层面不必要的重复建设。

无论是数据湖模式还是湖仓一体模式,都更加符合当前AIGC提取各类非结构化数据和结构化数据训练使用的需求。

根据市场研究公司IMARC测算,全球数据湖市场规模在2021年达到了74亿美元,并预计2022—2027年复合年增长率为26.4%,预计2027年全球数据湖市场规模达300亿美元,可见增长潜力之大。

数据湖具有如此大的增长潜力,因此如何从数据湖中查询与处理数据就显得更为重要。

根据数据查询与处理的时效,可以将涉及这个环节的公司分为两类:异步处理型公司和实时处理型公司。

  1. 异步处理型公司



简单地说,异步处理指的是数据的处理过程并非同步进行,而是分不同步骤依次进行。

这里划分的异步处理型公司并非指公司不具备实时处理的能力,而是数据服务主要针对的业务场景是异步工作的。

截至2022年12月初,数据查询与异步处理型公司中有两家公司发展势头迅猛,值得关注:

一是Databricks,当时的最新估值是380亿美元;

二是Starburst,当时的最新估值是33.5亿美元。

2013年,通用计算引擎Apache Spark的创始团队出于对Spark商业化的考虑成立了Databricks公司。

自此,Databricks就像架在数据湖之间的桥梁,通过支持行业特定的文件格式、数据共享和流处理等方式,让数据的访问和预处理变得更加便捷。

Databricks提供了一个名为Delta Sharing的开源功能,可以实现数据的跨区域共享,从而提高工作协同效率。

另外,Databricks针对特定行业特定文件格式的数据处理需求,一直在探索有针对性的垂直产品。

比如,针对不同医院的电子病历格式上会存在细微差异的问题,Databricks可以对电子病例的原始数据进行访问和预处理,从而形成格式统一的结构化数据。

Databricks的首席测试官(CTO)马泰·扎哈里亚(Matei Zaharia)在2022年12月接受采访时表示:“Databricks在前三大超大规模数据中心里运行着超过5 000万台虚拟机,有1 000多家公司在使用Delta Sharing进行数据交互。”

可以说,Databricks是一个联结数据湖仓架构的枢纽,而这份枢纽所带来的数据价值也收获了投资人的广泛认可。

Starburst是一家缘起于Facebook开源项目的数据分析公司。

它提供了一种解决方案,可以让用户随时随地快速轻松地访问数据。

Starburst的历史可以追溯到2012年Facebook的开源项目Presto。

Presto最初是为了满足Facebook大规模数据快速查询的需求而建立的。

2013年,Presto的初始版本在Facebook上线使用并开源,自此之后,包括亚马逊、奈飞和领英在内的其他科技公司也都开始使用。

直到2017年,为了更大规模推动Presto的使用,Startburst得以成立,并在一段时间的发展中收获了资本市场的青睐。

2.实时处理型公司

与异步处理型公司类似,实时处理型公司指的是主要针对实时处理需求的公司提供数据服务。

截至2022年12月初,数据查询与实时处理型公司中有两家公司值得关注:

一是ClickHouse,当时的最新估值是20亿美元;

二是Imply,当时的最新估值是11亿美元。

ClickHouse强调处理速度,可以实现实时数据访问与处理,并且围绕它形成了一个开发者社区,有助于持续开发和技术改进。

ClickHouse的主要产品是一个开源的列式数据库,在列式数据库中,数据按列进行物理分组和存储,从而最大限度地减少了磁盘访问次数并提高了性能,因为处理特定查询时每次只需要读取一小部分数据。

此外,由于每一列都包含相同类型的数据,因此也可以使用有效的压缩机制降低存储成本。

而正是这些独特的技术特性让ClickHouse受到了资本市场的充分关注。

Imply是一家基于Apache Druid提供数据查询与实时处理服务的公司。

Apache Druid是一个实时分析型数据库,最初主要面向广告行业的数据存储、查询需求,因为广告数据对数据的实时性要求很高,对广告主而言,及时衡量曝光、点击、转化等关键指标有助于快速评估广告投放的效果,进而对广告投放策略进行调整。

尤其是在自媒体时代,网络热词的时效性、用户的注意力、网红达人的生命周期都变短,这使得广告业对数据访问和处理的实时性要求变得越来越高。

目前,Imply为许多需要利用动态数据进行实时处理分析的场景提供技术支撑,也为不少更高级别的AI技术提供大规模数值计算的能力。

二 数据转换与编排

在这个环节里,作为人工智能“食品原材料”的数据就需要被运送到加工厂里进行加工处理了。

这个环节对数据的处理主要包括提取Extract,简称E)、加载(Load,简称L)和转换(Transform,简称T)三个模块,因此产业界通常将该环节称为ELT或ETL,也就是三个模块的英文首字母缩写,L和T的顺序则取决于实际操作流程中哪个环节在前面。

这三个模块的含义如下所示:

·提取:从各种来源获取数据。


·加载:将数据移动至目标位置。


·转换:处理和组织数据,使其具备业务可用性。

根据市场研究公司Grand View Research的数据,全球数据集成工具市场的规模在2021年是105亿美元,预计2022—2030年复合年增长率是11.9%。

根据数据处理的方式是在本地还是在云端,可以将涉及这个环节的公司分为两类:本地部署型公司和云原生型公司。

  1. 本地部署型公司



本地部署型公司主要指核心软件产品部署在本地电脑环境中使用的公司。在这个领域有两家公司值得关注:一是帆软,二是Pentaho(主要关注其产品Kettle)。

帆软成立于2006年,是一家总部位于中国无锡的大数据商业智能和分析平台专业提供商,它专注于商业智能和数据分析领域,致力于提供一站式商业智能解决方案。

仅2021年,帆软销售额就已超11.4亿。

根据国际数据公司IDC 2021年的数据,帆软的主业商业智能的市场份额连续五年在中国排名第一。

旗下的FineDataLink是一站式数据集成工具类的重要产品,其目的是为了解决企业数据处理的困境。

如今各大企业拥有大量各种类型的信息系统,但企业之间并不连通,形成了数据壁垒,这也使企业无法进行有效的数据联合分析,最终导致数据无法发挥最大价值。

而FineFataLink通过对多种异构数据进行实时同步,采用流批一体的调度引擎进行数据清洗,并提供低代码Data API敏捷发布平台,帮助企业解决数据孤岛,提升数据价值。

从帆软官网披露的信息来看,FineDataLink的客户以三一重机、安特威、惠科金渝等制造业客户为主。

Kettle最早是一个开源的ETL工具,采用java编写,可以在各种类型的操作系统上运行,数据抽取高效、稳定。

2006年被Pentaho公司收购,2015年Pentaho公司又被Hitachi Data Systems收购。

截至2021年1月31日,Kettle开源版软件下载量最多的国家是中国,占全球下载量的20%。

2.云原生型公司

云原生型公司主要指以云服务的形式提供旗下产品数据转换与编排功能的公司。截至2022年12月初,云原生型公司中也有两家公司值得关注:

一是Fivetran,当时最新估值是56亿美元;

二是dbt Labs,当时最新估值是42亿美元。

Fivetran是硅谷知名孵化器Y Combinator成功孵化的公司,这家公司的名字来自20世纪50年代IBM开发的编程语言Fortran。

随着云计算技术的到来,Fivetran最初意识到传统ETL/ELT工具的性能可能难以匹配云原生的工作场景,因此基于云原生场景开发了相较于本地部署场景下的ETL/ELT工具更适配的数据整合平台。

通过提供SaaS(Software-as-a-Service,软件即服务)服务,Fivetran可以连接到业务关键数据源,提取并处理所有数据,然后将数据转储到仓库中,以进行查询访问和必要的进一步转换。

Fivetran让大规模数据的分析操作变得更简单了,有人认为Fivetran是“在Excel和Matlab之间找到了平衡”。

随着数字时代的发展,未来大规模数据分析的需求会越来越强烈,但学习专业的大数据分析工具成本不低,因此Fivetran很好地弥合了这个市场需求。

dbt Labs聚焦在ELT中的Transform部分,帮助数据团队“像软件工程师一样工作”,它的核心功能是帮助用户书写数据转换的代码。

在创业之前,dbt Labs的创始人团队一直在数据分析领域工作,他们对于数据分析所面临的问题和挑战有着深刻的了解。

他们一直坚信,数据分析师是一种创造性的工作。

dbt Labs最初推出的产品非常小众。

一部分尝鲜客户为dbt Labs的产品提出了很多改进建议和需求,这有助于产品的迭代,也有利于让产品在这些早期用户中进行口碑传播,就像一个种子在肥沃的土壤中发芽生长一样,这使得dbt Labs快速成长起来。

在它发布了dbt cloud的云服务之后,公司估值也快速上升,获得了投资人的广泛认可。

三 数据标注与管理

如果说人工智能是把机器当作学生进行教学的过程,那么数据标注与管理环节则是备课环节,把原始数据进行结构化处理后,接下来就是组织整理知识点,然后教给机器。

在前文中,我们介绍过在许多任务场景中,人工智能需要通过监督的方式进行学习,人类通过给机器“喂养”标注了知识点的结构化数据来实现监督,最终形成可以解决各个场景实际问题的算法模型。

正如中国工程院院士邬贺铨曾表示的:“智能驾驶中需要让汽车自动识别马路,但如果只是将视频单纯地传给计算机,计算机无法识别,需要人工在视频中将道路框出,再交由计算机,计算机多次接受此类信息后,才能逐渐学会在视频和照片中识别出道路。”

根据Grand View Research的研究,2021年全球数据标注市场规模为16.7亿美元,预计2022—2030年将以25.1%的复合年增长率增长。

数据标注环节听起来技术含量并不高,只需雇用更多的劳动力就可完成,但有心的公司可以基于数据标注的源头将业务拓展到其他环节,获得更大的发展空间。

因此,根据公司业务拓展程度的差异,可以将涉及这个环节的公司分为两类:基础型公司和扩张型公司。

  1. 基础型公司



基础型公司通常专注于数据标注与管理领域,并没有过多将业务延伸至算法模型等其他领域,虽然聚焦的环节附加值不高,但由于充分的专注度,基础型公司在该垂直领域形成了独特的竞争优势,Appen和云测数据就是这一类公司的典型代表。

Appen是全球领先的AI训练数据服务提供商,成立于1996年,2015年在澳大利亚证券交易所上市。

基于官网信息可知,Appen在全球拥有100多万名众包人员,支持235种语言,业务遍布全球170个国家和7万个地区。

目前,Appen已经为全球许多头部企业提供服务长达20多年,能够针对不同行业的AI应用场景需求提供独特的解决方案。

云测数据是另一个具有代表性的基础型公司。

云测数据成立于2011年,是一家自动化软件测试公司,2018年开始涉足数据标注业务,旗下拥有云测标注平台和国内众多供应商,致力于加速AI场景化落地。

根据《互联网周刊》发布的“2022数据标注公司排行”,云测数据排在国内数据标注行业第一位。

2.扩张型公司

Scale是从数据标注环节向其他环节扩张的典型公司。

Sale在成立的最初四年还只是专注于给数据打标注,但从第五年开始逐步向下游扩展,目前已经开发了自有模型,从而进入更加具有技术含量和商业价值的环节。

Scale官网信息显示,Scale的客户不仅包括美国国防部和科技巨头(比如微软、SAP、PayPal),甚至包括OpenAI

Scale之所以可以从最初看似技术含量不高的数据标注环节向更具附加价值的中下游环节扩张,主要受益于规模经济、客户黏性和资源垄断。

·规模经济:Scale的客户越多,处理的数据量和数据维度也越多,对于不同任务的处理经验也更加丰富,相关的标注算法工具也更加完备,从而处理效率和质量就越高。因此,随着时间的推移,Scale作为先发者相较于跟进者而言就可以以更低的成本提供更高质量的服务,做“时间的朋友”。


·客户黏性:数据标注服务本身很难建立起高度的客户黏性,而Scale之所以可以留住客户,得益于它在2020年4月推出的Scale Document。Scale Document不仅为数据贴标签,还与客户合作建立定制模型。这使得客户切换服务商的成本变高,因为需要重新训练模型。


·资源垄断:这里所说的资源垄断指的不是垄断数据而是垄断人才,数据的所有权是客户的,即使通过Scale来完成打标签过程,也不能把这些数据误认为是Scale的资产。但随着数据流过Scale平台,这些数据同样训练了Scale平台标注算法的模型能力,也沉淀了这个领域的众多人才,人才是这个领域的宝贵资源。

另一家典型的扩张型公司Labelbox也是从数据标注起家,逐渐拓展了数据管理、AI辅助标记、模型训练和诊断服务等相关业务,进而成为一个综合性的AI数据引擎平台。

Burberry(巴宝莉)就曾利用Labelbox来辅助它的营销策划。

作为跨国品牌,Burberry在进行全球营销的过程中常常需要处理大量的营销图片。

为了帮助高效决策,Burberry通常需要对成千上万张图片进行打标签和分类,进而在营销投放环节,根据品牌宣发需求进行精准的分渠道投放。

过去打标签环节是完全通过人工进行的,耗费时间和精力,如今利用Labelbox这样的工具后,可以大幅提高打标签的效率,节省图片分类的时间。

根据Labelbox官网的信息,在和Burberry合作的过程中成功为Burberry节省了10个人力,仅花费2个小时就可以处理完成上千张图片。

智研咨询数据显示,2021年我国数据标注与审核行业市场规模达到44.4亿元,伴随着AI战略被更多企业认同,更多资金和资源被投入,以及各项技术得到实际应用和落地,我国数据标注与审核行业将延续高速增长态势。

国内头部科技公司都有自己的数据标注部门,比如百度的百度众测和京东的京东众智。

四 数据治理与合规

虽然数据是人工智能机器的“食物”,但也不能让机器胡吃海塞。

在数字经济时代,数据是和土地、人力、资本一样举足轻重的生产资料,因此,既需要保证数据资产在管理时符合预先设置的数据质量规范,也需要在访问和调取数据时做到合法合规,这也使得数据治理和合规服务逐渐成为各个企业的必需品。

市场研究公司ReporterLinker的数据显示,2020年全球数据治理市场规模约为18亿美元,预计到2027年将达到72亿美元,在此期间以22%的复合年增长率增长。

根据服务交付的模式,可以将涉及这个环节的公司分为两类:工具型公司和定制型公司。

1.工具型公司

工具型公司是将数据治理与合规服务产品化,需要相关服务的客户可以直接购买标准化的产品或基于已有的产品进行部分自定义。

OneTrust和Collibra就是两家典型的工具型公司。

OneTrust总部设在亚特兰大和伦敦,创始人卡比尔·巴戴(Kabir Barday)曾是BlackRock的开发人员。

他在2016年注意到很多公司在准备数据合规业务,于是创办了OneTrust公司。

OneTrust通过自动化工具帮助企业遵守《通用数据保护条例》《加州消费者隐私法案》和数百个其他全球隐私法律。

OneTrust简化了消费者和主体权利请求的接收和履行流程,允许客户与同行进行基准比较,绘制和盘点处理记录,并在数据流经其组织时生成自定义报告

根据2020年IDC市场份额报告,彼时仅成立4年的OneTrust公司的份额就占到全球数据隐私市场总份额的40.2%,并被Inc.500评为美国增长最快的公司。

Collibra早在2008年就在纽约成立,它通过提供各种工具来满足数据监管的合规要求,并以自动化的数据治理和管理解决方案而闻名。

Collibra提供了自动数据分类的功能,如果特定数据集内包含与欧盟居民有关的个人身份信息(PII),它将自动应用《通用数据保护条例》《加州消费者隐私法案》等法案政策,通过使用机器学习对敏感数据进行自动分类,省时省力。

2.定制型公司

定制型公司主要的业务特点是为客户提供个性化的解决方案。

光点科技和亿信华辰就是两家典型的定制型公司。

光点科技总部位于广州

根据光点科技官网信息,截至2022年底,光点服务的客户已超过100家,包括广东省工业和信息化厅、广州市工业和信息化局等。光点科技的服务行业涉及金融、电信、政务、泛零售等。

通过数据治理,光点科技可以对企业数据收集、融合、清洗、处理等过程进行管理和控制,有助于持续输出高质量数据。

通常,客户会针对特殊的业务场景进行数据解决方案的定制,例如,在新冠肺炎疫情防控期间,通过光点数据填报系统,在机场、火车站、高速口、客运站等人流密集的卡口区域扫描二维码登记,可实现人员无接触通关,也有助于实时掌控人员行动轨迹,以便及时推出联防联控的行动解决措施。

基于数据治理业务,光点科技同样能够提供有价值的数据应用服务,例如光点科技研发的“数字灵境”就将大数据与城市发展相结合,打造出了智慧城市大数据平台。

亿信华辰成立于2006年,它自主研发了“睿治”智能数据治理平台,可以提供定制化的数据治理服务。

基于亿信华辰官网信息,截至2022年12月,亿信华辰已经服务了1.1万家企业和2.3万个项目。

作为定制型数据治理服务的代表性公司,亿信华辰根据不同行业的需求“因地制宜”,例如为地产商时代中国量身定制了一套完整的线上数据管控体系,通过数据资产管理,构建了一整套线上数据管控体系。

根据IDC发布的《中国数据治理市场份额(2021)》报告,亿信华辰在国内数据治理市场的份额占据第一位。

第二节 产业中游:算法模型

产业中游的算法模型是AIGC最核心的环节,是机器完成教育训练过程的关键环节。

中游算法模型包括三类重要的参与者:人工智能实验室、集团科技研究院和开源社区。

中游算法模型的产业地图如图5-3所示。

图5-3 中游算法模型层产业地图

一 人工智能实验室

算法模型在人工智能系统中起到决策作用,是人工智能系统完成各项任务的基础。

算法模型可以用来表示人工智能系统的知识,并通过对数据进行处理,帮助人工智能系统做出决策。

因此,算法模型可以被视为人工智能系统的灵魂,也是人工智能从“单细胞”到“多细胞”,再到“高级智慧生物”演进过程的根本推动力,正是种种算法模型赋予了机器近乎人类的洞察力与创造力。

很多企业为了更好地针对算法模型进行研究并推动其商业落地,在企业内部设立了和高校一样的人工智能实验室,甚至有些企业本身就是一个大型人工智能实验室。

据此,可以将人工智能实验室分为两类:独立型人工智能实验室和附属型人工智能实验室。

  1. 独立型人工智能实验室



独立型人工智能实验室中最具有代表性的公司是OpenAI。

OpenAI于2015年在美国硅谷成立,其背后的创始团队阵容十分强大:

有着“钢铁侠”称号的埃隆·马斯克(Elon Musk)、全球知名创业孵化器Y Combinator的掌门人山姆·阿尔特曼、著有畅销书《从0到1》的硅谷创投教父彼得·蒂尔(Peter Thiel)。

不止于此,在OpenAI成立后的第五年,微软向OpenAI投资了10亿美元。

在5v5模式的Dota2比赛中,OpenAI开发的人工智能OpenAI Five击败了人类选手,比尔·盖茨(Bill Gates)盛赞这是人工智能发展过程中的重要里程碑。

而在2022年引爆AIGC热潮的“ChatGPT聊天机器人软件”也正是OpenAI的杰作,OpenAI推出的大模型GPT-3可以达到千亿级参数,而其即将推出的GPT-4模型被许多人认为有望真正通过图灵测试。

除了GPT之外,OpenAI在2022年同样发布了知名AI绘画工具DALL·E 2,以及逼近人类水平、支持多种语言的语音识别预训练模型Whisper。

这些智能算法模型无疑都代表着当前人类在人工智能领域的一些顶级成果。

2.附属型人工智能实验室

谷歌旗下的DeepMind被认为是OpenAI最大的竞争对手,比OpenAI早成立了5年。

DeepMind最知名的人工智能模型是AlphaGo,它在围棋游戏中打败了国际上最优秀的人类棋手。

同OpenAI一样,DeepMind也致力于开发通用人工智能算法模型,因此除了内容创作领域之外,DeepMind在许多其他领域也开发了震惊大众的人工智能。

2018年,DeepMind开发的AlphaFold在结构预测关键评估(CASP)竞赛中展现出了超出人类的能力,AlphaFold在蛋白质结构预测领域取得了突破性成果,也使得人工智能的触角伸向了生物科技与医疗领域。

2022年,DeepMind又发布了基于Transformer的新模型AlphaCode,甚至在国际自然科学领域顶级期刊《科学》(Science)上发表了新论文,该研究登上了《科学》封面。

FAIR则是Meta旗下的人工智能算法模型研究团队,全称为Facebook AI Research,该团队于2022年被并入元宇宙核心部门Reality Labs。

FAIR负责人杨立昆(Yann LeCun)是卷积神经网络之父、纽约大学终身教授,与谷歌副总裁杰弗里·辛顿(Geoffrey Hinton)、2018年图灵奖得主约书亚·本吉奥(Yoshua Bengio)并称为“深度学习三巨头”。

Meta目前也正在寻求让机器学习和人工智能在整个公司得到广泛应用的机会,而不只是局限在研究部门。

FAIR在2021年已经开源了Expire-Span算法,这是一种深度学习技术,可以学习输入序列中哪些项目应该被记住,从而降低AI的内存和计算要求。

Meta表示:“作为研究更像人类的人工智能系统的下一步,FAIR正在研究如何将不同类型的记忆融入神经网络。”

因此,从长远来看,Meta可以使人工智能更接近人类的记忆,具有比当前系统更快的学习能力。

Meta相信Expire-Span是一个重要的、令人兴奋的进步,朝着未来人工智能驱动的创新迈进。

二 集团科技研究院

一些集团型公司往往会设立聚焦前沿科技领域的大型研究院,下设不同细分方向的实验室,通过学术氛围更加浓厚的管理方式,为公司未来科技的发展储备有生力量。

阿里巴巴达摩院和微软亚洲研究院就是人工智能领域典型的集团科技研究院。

阿里巴巴达摩院成立于2017年10月11日,致力于探索科技未知,以人类愿景为驱动力,开展基础科学和创新性技术研究。

截至2022年年底,达摩院旗下主要包括五个方向的实验室:机器智能、数据计算、机器人、金融科技、X实验室。

X实验室指的是除了前四个领域,在未来可能会有裂变价值的科技领域,当前主要涵盖量子计算、下一代移动通信和虚拟现实三个方向。

除了这些自研实验室外,达摩院还和全球许多知名高校建立了联合实验室,并推出了阿里巴巴创新研究计划,构建全球学术合作网络,这些目前都是阿里巴巴达摩院研究的重要组成部分。

自成立以来,达摩院研究出了许多杰出的成果,其中不少成果与AIGC领域息息相关。

例如,达摩院研发的深度语言模型体系AliceMind掌握100多种语言,具有阅读、写作、翻译、问答、搜索、摘要生成、对话等多种能力,其处理能力先后登上了自然语言处理领域的六大权威榜单,并在2021年年中宣布了开源。

微软亚洲研究院成立于1998年,是微软公司在海外开设的第二家基础科研机构,由李开复博士出任第一任院长,至今已经发展成为世界一流的计算机基础及应用研究机构。

截至2022年年底,微软亚洲研究院在中国的核心研究团队除了北京上海的多个细分方向的研究组外,还包含科学智能中心、产业创新中心和理论中心三大研究中心。

无论是北京、上海的研究组,还是三大研究中心,许多研究方向都与人工智能相关,也产出过杰出的AIGC研究成果,比如通用多模态基础模型BEiT-3,它在目标检测、实例分割、语义分割、图像分类、视觉推理、视觉问答、图片描述生成和跨模态检索等领域都表现出了杰出的性能。

三 开源社区

开源社区对AIGC的发展十分重要,因为它提供了一个平台,让开发人员能够共享他们的代码,分享他们最新的研究成果,并与其他人一起协作,共同推动AIGC相关技术的发展进步。

除了可以让研究人员彼此充分学习交流外,开源社区还可以帮助开发者更快地开发出人工智能相关应用。

建造各个场景下的人工智能应用系统就像建造一栋栋大楼,往往需要很多人的共同努力。

而开源社区就像是工地上的交流中心,让所有参与建造的人都能够找到合适的工具和材料,并与其他人交流想法,共同完成建造工作。

如果没有交流中心,大楼的建造将会变得困难重重,甚至无法完成。同样,如果没有开源社区,人工智能的发展也会面临诸多困难。

因此,开源社区对于人工智能的重要性不言而喻。根据开源社区所覆盖领域的宽度和深度,可以将开源社区分为两类:综合型开源社区和垂直型开源社区

1.综合型开源社区

GitHub是世界上最大的开源代码托管平台,目前已有超过9 000万的活跃用户和1.9亿代码库。

作为代码玩家界的Facebook,GitHub是开发者与朋友、同事、同学及陌生人共享代码的完美场所,无论是人工智能领域相关的代码,还是其他领域的代码都可以在这里上传共享。

代码开源不仅可以减少重复性工作,还可以推动技术研究的快速突破,降低应用门槛,加速技术产业化推广使用,以及有效促进学界与产业界的有效交流,促进产学研融合。

2018年,Github被微软收购,但其社区与业务依然独立运营,保留了它传承已久的开源精神。

无论是AIGC领域的论文还是项目,如果选择上传开源代码的地方,Github绝对是首选。

2.垂直型开源社区

除了像Github这样大而全的开源社区外,还有一些针对垂直领域的小而精的网站和社区在开源领域发光发热,比如Papers with Code和Hugging Face

Papers with Code是一个总结了机器学习论文及其代码实现的网站。

用户可以轻松地在网站上检索到所需要的机器学习论文及存储在Github上的开源代码。

用户可以按照标题关键词或者研究领域关键词进行查询,也可以按照流行程度、论文发表时间以及Github上收藏(Star)数量最多来对论文及论文代码进行排序。

Papers with Code网站最初是由Reddit的用户rstoj开发,让人们可以从中发现一些以前不知道的研究精华。

作为机器学习界的内容社区,Papers with Code大大促进了人工智能领域的研究。

Hugging Face是专注于机器学习领域的垂直版GitHub。

它想要把主打年轻用户的聊天机器人作为主营业务,因此在GitHub上开源了一个Transformer的代码库,不过没想到聊天机器人业务没做起来,Transformer库却在机器学习社区火起来。

很多人总结Hugging Face的成功是因为团队开放的文化和态度,以及利他利己的精神很具有吸引力。

目前,仍然有很多业界专家都在使用Hugging Face和提交新模型,甚至有些NLP工程师招聘中明确要求候选人熟练使用Hugging Face Transformer库。

如果说人工智能是一场淘金运动,那么Hugging Face则是典型的“卖水人”。

第三节 产业下游:应用拓展

任何优秀的算法模型最终都需要落地于具体的应用场景去实现其商业价值。在AIGC产业的下游,可以将AIGC相关应用拓展到四个主要场景:文本处理、音频处理、图像处理、视频处理(图5-4)。

伴随着AIGC技术成熟度的提高,在产业下游将会诞生越来越多全新的商业机会与初创公司,本节将对四大主要场景中部分特点明晰的应用与公司进行介绍。

一 文本处理

目前,文本处理是AIGC相关技术距离消费者感知最近的场景,也是技术成熟度相对较高的场景,因此文本处理场景中的应用与公司最为丰富。

这些应用与公司会从多个维度辅助公司的业务和职能部门的工作,并直接参与到内容的商业化过程中。

1.营销型文本处理

营销是文本处理最常见的应用赛道,这一赛道最常见的客户是企业的市场营销部门及营销公司人员。

这部分人群最大的痛点在于,他们要把无止境的时间投入思考广告创意、营销文案中,内容的生产非常依靠灵光乍现,而他们往往非常容易灵感枯竭。

文本处理应用的诞生就是为了解决这个痛点,许多文本处理应用在产出文本的同时,还能通过使用者对于文本的修改形成反馈,改进整个模型,从而输出更高质量的内容,形成“AI+人工”的正向技术网络效应。

图5-4 下游应用拓展层产业地图

Copy.ai是典型的营销型文本处理应用。

它基于GPT-3大模型,能在几秒钟内生成高质量的广告和营销文案,包含70多个AI模板,覆盖的场景包括博客、社交媒体推广、产品上线等,还可以翻译25种不同的语言。

你只需输入标题、文案大意,Copy.ai就可以生成一段可读性较高的文案。

Copy.ai意图将人们创作文案的构思阶段缩短80%以上,然后让营销人员依靠人工的修改和润色来填补剩余的20%。

它的收费模式也很简单,根据官网在2022年12月显示的信息,免费版Copy.ai每个月只提供2 000个字的额度,Pro版Copy.ai收费为49美元/月,可以同时让5个账户使用,平摊下来每个账户不到10美元/月。

Jasper是一家典型的营销型文本处理公司,旗下产品的功能和Copy.ai非常类似,底层也是采用GPT-3的相关模型,但团队在此基础上做了改进,特别是在广告和营销的内容生成上,Jasper的产品更擅长生产长篇的内容。

此外,Jasper公司还收购了一家专注于提供写作语法检查服务的公司Outwrite,其产品非常类似Grammarly,强化了Jasper产品的文本效果。不过,Jasper产品的定价相比Copy.ai更高且没有免费版。

Jasper公司与Airbnb、HubSpot、Autodesk以及IBM等企业客户合作,2021年收入超过了4000万美金。

2.销售型文本处理

销售型文本处理与营销型文本处理有一定的相似性。

对于市场营销人员而言,营销型文本处理通常面向广大的公众和消费者,文案更多发布于博客、社交媒体、广告等大众传播的应用场景,比如普通老百姓都能在电视上、网上、大街上看到的广告词和标语,等等;

销售型文本处理则面向更私人、非公开的场合,比如电子邮箱

很多金融机构的分析师可能深有体会,每当查看需要输入邮箱的数据或者报告后,邮箱里总会收到大量数据机构的销售人员发来的会议邀请、产品介绍,等等。

销售型文本处理应用正是为这些努力工作的销售人员准备的,它可以通过AI自动生成电子邮件,并根据属性筛选和抓取潜在客户邮箱、发送邮件进行验证,最典型的应用包括Lavender和Smartwriter.ai。

Lavender是一款用于编写销售电子邮件的浏览器扩展程序,结合了AI分析、社交数据和收件箱生产力工具等功能模块。

AI分析可以帮助用户改进电子邮件回复内容,社交数据帮助用户建立融洽的关系,而移动设备预览、电子邮件验证、GIF图和垃圾邮件拦截器等工具都可以帮助用户来更好地利用电子邮件处理工作。

所有这一切的目标都是使销售人员能写出一封更可能得到潜在客户回复的邮件。

比如Lavender会分析收件人的社交数据、日历时间等,帮助销售人员了解客户如何做出购买决定及如何定制个性化的邮件信息。

Lavender还会对邮件进行分析和评分,快速分析邮件当中的问题,自动进行修复。

Smartwriter.ai在电子邮件功能上与Lavender相似,还集成了类似Jasper产品的营销文案生成能力,能够直接面向Gmail、Yahoo Mail、Facebook、Twitter、LinkedIn进行数据抓取及潜在客户构建和销售。

3.续写型文本处理

续写型文本处理与营销型文本处理的共同点在于,都对AI处理文本的自由度和开放度有较高的要求,换句话说,考验AI的“创意”。

相对于营销型文本处理应用来说,续写型文本处理应用的用户并非专业的企业人员,更有可能是从事艺术创作的个人,比如每天被读者催更的网文作者。

因为用户的规模和收入水平区别较大,续写型文本处理应用并不是生产力工具,而更多的是具有娱乐属性,目前从收费模式上也更可能是免费的。

目前,国内各类视频博主乐此不疲地使用续写型文本处理应用,为《三体》等热门作品续写另一种结局,然后把离谱的结果发到视频平台上,满足用户对AI生成内容的猎奇心理。

其中常见的一个应用是由国内公司彩云科技开发的彩云小梦。

用户只需要在长文本输入框中先写个开头或者输入世界设定和故事背景,然后就可以交给AI小梦来帮忙续写。

彩云小梦还内置了多种续写模型,包括标准、言情、玄幻、都市等。

用户可以点击右上角自由切换模型,可根据偏好续写不同风格的内容。

每一次续写的一段话都可以中途修改,或者挑选小梦帮写的另外几个段落进行更换。

另外,彩云小梦目前还更新了对话版,在完成世界设定后,能够以对话的形式展开剧情。

在较小的营收压力下,目前的彩云小梦仍然免费。

4.知识型文本处理

上述三类文本处理应用从定位上更接近于“输出”的过程,即“使用的目的”是为了有可以外发的、展示的、传播的产出,就好比一个小学生可能会用小猿搜题找到作业的答案,然后把作业展示给老师。

而知识型文本处理应用则更注重信息的“输入”,帮助用户更好地进行信息的归纳、接收和整理,就好比一个小学生在写作业之前,要用思维导图等工具把上课学到的知识点整理好,内化为之后写作业、考试可以用到的技能,但这个过程可能需要花费很长时间,去不同的教材、笔记本、错题本上搜索信息。

对于企业员工来说,搜索信息、管理信息一直是一件耗费精力的事,因为员工把大量时间花在了“重新发明轮子”上。

一些人工智能文本生成工具就专注于解决这个问题。

Mem就是一家这个赛道上的典型公司,由华裔工程师Dennis Xu和凯文·穆迪(Kevin Moody)共同创办。

Mem产品的优势是“轻量级”,主打快速记录与内容搜索,允许用户附加主题标签,标记其他用户。

此外,Mem与AIGC的结合更是让其产品功能强大无比,产品的内置工作助手Mem X可以执行智能编辑、智能写作等任务,比如将零散的文本组成段落、为文章进行总结或者生成标题。

目前,Mem的商业模式走的也是SaaS的路线,用户需要购买10美元/月的Mem X套餐,才能享受到AI的能力,包括自动整理和归类信息。

除了这个额外的进阶功能外,Mem X的付费版还取消了单个文件大小为25MB的限制,并拥有100GB的总存储空间,这大约是免费版本的20倍。

5.通用型文本处理

顾名思义,通用型文本处理不局限于某个特定场景,而是为用户提供具有泛用性的综合解决能力,因此能够覆盖到类别更为丰富的用户。

比如Writer公司的AI写作平台,提供从头脑风暴构思、生成初稿、样式编辑、分发内容、复盘研究的全部流程支持,适用于任何需要内容生产的场景和工作,帮助提高内容的生产量、生产效率、点击率、合规性等。

国内的澜舟科技也是一家针对商业场景数字化转型、以自然语言处理为基础提供通用型文本处理服务的公司。

根据2022年12月官网的信息,澜舟科技的创始人周明博士是自然语言处理领域的代表性人物,现任中国计算机学会副理事长、中国中文信息学会常务理事、创新工场首席科学家,曾任微软亚洲研究院副院长、国际计算语言学协会(ACL)主席。

除了创始人拥有优异的科技背景外,其产品体系基于自主研发的“孟子”轻量化的预训练模型,可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。

孟子模型基于Transformer架构,包含10亿参数量,基于数百G级别涵盖互联网网页、社区、新闻、电子商务、金融等领域的高质量语料训练而成。

“孟子”预训练模型性能比肩甚至超越千亿大模型,在文本分类、阅读理解等各类任务上表现惊艳。

6.辅助型文本处理

与前述需要AI“脑洞大开”进行创意文本处理的应用不同,辅助型文本处理应用是一种较为轻量级的应用,也是目前国内落地最为广泛的场景之一。

它的主要功能是基于素材爬取来实现,在很大程度上对写作者起到了“助手”的作用,比如可以根据需求定向采集素材、文本素材预处理、自动化降重、重新表述润色等,帮助创作者减轻许多程序性的工作,提升生产力。

Wordtune就是一款非常典型的辅助型文本处理应用,它的功能是帮助用户“重写”句子,对句子进行缩写或扩写,使句子在原句意的基础上更随意或更正式。

Wordtune由以色列公司AI21 Labs构建。

AI21 Labs成立于2018年,目标是彻底改变人们的阅读和写作方式,用AI来理解书面文本的上下文和语义。

目前,Wordtune已经成为很多中国留学生进行论文修改润色,或者用来练习雅思考试中的同义词替换的“神器”。

国内公司秘塔科技也推出了AI写作助手“秘塔写作猫”。

根据官网的信息,秘塔科技于2018年成立,创始人闵可锐毕业于复旦大学计算机系,后在牛津大学数学系、美国UIUC电子与计算机工程系攻读硕士、博士学位,在谷歌参与过AdSense基于内容广告建模组点击率预测项目,还担任过猎豹移动首席科学家。

秘塔写作猫采用了自研的大规模概率语言模型,根据上下文对可能的用词进行准确建模,因此除了文本校对、改写润色、自动配图等辅助功能之外,它也具备根据标题生成大纲或文章,以及提供论文、方案报告、广告语、电商种草文、自媒体文章等写作模板的能力,是同时具备营销和续写能力的文本处理应用。

7.交互型文本处理

交互型文本处理应用是形式上与上述应用最不同的一个,因为它的产品形态本身存在叙事,交互的过程本身产生意义,而不是像文案写作应用一样作为一种生产力工具。

对于很多用户来说,与苹果的Siri语音助手进行对话本身就很有意思,可以听Siri说出很多有趣的俏皮话。

由此我们可以看出,交互型文本处理应用常应用于闲聊、游戏等娱乐场景。

第一章提到的AI Dungeon就属于这类应用。

2019年2月,就读于计算机相关专业的尼克·沃尔顿正处于大学最后一年,一次校园编程竞赛让他想到基于OpenAI刚刚发布的GPT-2模型做一个文字冒险游戏AI Dungeon,灵感来源于经典游戏《龙与地下城》,并用与AI文字对话的形式来完成游戏和故事生成。

2019年5月,沃尔顿创立了Latitude公司,并在年底GPT-2完全放出后正式推出了AI Dungeon,又在GPT-3推出之后强化了AI Dungeon的语义理解和写作能力。

大多数AI聊天机器人的玩法是对话,AI Dungeon则是共同创作故事,玩家可选择Say/Story/Do三种模式,操控自己的角色进行对话、行动,或者只是单纯地看AI基于上下文生成故事。

除了游戏之外,交互型文本处理应用还能够生成用于各种场景的虚拟角色,比如心理治疗等,国内的代表性公司有第四章提及的聆心智能。

聆心智能由国内NLP、对话系统领域专家黄民烈教授创办,公司自研了中文对话大模型OPD,该模型是目前世界上参数规模最大的开源中文对话预训练模型。

基于这一模型,公司打造了Emohaa情绪疗愈机器人,并与心理平台好心情达成合作,成功落地了国内首款人工智能心理陪伴数字人;

与高端电车品牌Beyonca合作,打造了智能驾舱贴心助手。

此外,聆心智能还推出了“AI乌托邦”系统,允许用户快速定制AI角色,只需要输入简单的角色描述,就可以召唤出相应人设的AI,与之进行深度对话和聊天。

8.代码型文本处理

代码是一种特殊的文本形式,许多公司将代码相关文本的处理作为切入点展开业务经营。

人工智能进入代码开发环节,有助于消除开发人员之间的IT知识差异,可以让对编程语言精通程度不同的团队更好地协同工作。

根据AIGC对代码处理环节的渗透程度,可以将代码型文本处理公司分为三类:

代码生成型公司(辅助代码撰写)、代码文档型公司(代码转化成文档)、代码开发型公司(直接参与代码开发)。

(1)代码生成型公司

Repl.it是典型的代码生成型公司。

Repl.it是可以支持50多种编程语言的在线编程语言环境平台,一直致力于为代码工程师解决编程操作问题,使操作更简便、快捷,可以将它简单理解为编程界的“腾讯文档”。

Repl.it在全球拥有1 000多万用户,包括谷歌、Stripe、Meta这样的科技巨头。

Repl.it推出了Ghostwriter,作为GitHub Copilot的竞争对手而存在,与GitHub Copilot拥有类似的功能。

Ghostwriter可以支持16种编程语言,包括C、Java、Perl、Python和Ruby等主流语言。

Ghostwriter的商业模式是作为Repl.it的一项付费订阅服务,每月收费10美元,相比GitHub Copilot更加便宜。

(2)代码文档型公司

程序文档可以帮助开发人员和产品业务部门在沟通协作时理解代码,但它生产起来费时费力。

Mintlify的首席执行官(CEO)曾分享道:“我们曾在包括初创公司和大型科技公司在内的各个阶段的公司担任过软件工程师,发现软件工程师都受到编写文档的困扰。”

Mintlify就是一家聚焦于解决这种问题的公司,它由两位软件工程师于2021年创立,利用自然语言处理等技术,可以实现根据用户所书写的代码,智能地对代码进行分析。生成对应代码的注释。

它不仅可以生成英文注解,还可以生成中文、法语、韩语、俄语、西班牙语、土耳其语等多种其他语言的注释。

Stenography也是一个类似的可以生成解释文档的平台。

它由工程师布拉姆·亚当斯(Bram Adams)构建,旨在让每个人都可以轻松访问并理解代码,降低代码在人与人之间传输方式的摩擦。

布拉姆·亚当斯在创立Stenography之前曾是OpenAI的研究员和开发大使,也曾在有线电视网络媒体公司HBO担任软件工程师。

(3)代码开发型公司

Debuild是典型的代码开发型公司。

Debuild官网的标语是“在几秒钟内编写您的Web应用程序”。

Debuild利用AI生成技术大幅降低软件开发门槛。

即使没有接受过编程教育的用户,只需用简单的英语描述希望App实现的功能,然后在几秒钟内Debuild就可以生成简单的App供用户使用。

Debuild的目标是扫除代码输入的细节,这样人们就可以专注于创意环节,去畅想他们真正想做的事情,而不是纠结于如何指示计算机去实现细节。

除了通用场景外,在垂直场景也有不少公司受益于AIGC相关技术,例如生物工程与医疗领域的Enzyme公司。


Enzyme通过自动生成的机器学习和自然语言技术,可以协助特定编码结构物质的生成,虽然这里的编码结构是生物学意义上的,但也可以看作是一种聚焦工程开发领域的“代码合成”。

二 音频处理

这部分内容主要介绍由TTS(语音合成)技术来生成的相关应用,对于与视频处理类似的音频处理应用,将和视频处理部分一起介绍。

目前,音频处理主要分为三类:音乐型音频处理、讲话型音频处理、解决方案型音频处理,不少公司专注于该领域。

随着知识付费和数字音乐逐渐释放音频类内容的商业化潜力,人工智能技术的应用将大大优化这个细分赛道的供给效率,有助于提高整体赛道的平均利润水平。

1.音乐型音频处理

音频处理的一大特色是音乐的生成与编辑。

Boomy就是一家典型的音乐型公司。

Boomy于2018年由亚历克斯·米切尔(Alex Mitchell)和马修·科恩·圣雷利(Matthew Cohen Santorelli)在加州伯克利创立。

米切尔是一位音乐人,曾创立过独立音乐市场研究平台Audiokite Research并于2016年被收购,而圣雷利是一位音乐版权专家。

Boomy使用由AI驱动的音乐自动化技术,让用户在几秒钟内免费创建和保存原创歌曲,创建的歌曲可以在Spotify、Apple Music、TikTok和YouTube等主要流媒体服务中传播,创作者可以获得版税分成,而Boomy拥有版权。

值得注意的是,Boomy并不认为AI能替代人类进行音乐创作,而是仅仅作为工具对人类进行辅助,因此Boomy的功能既包括协助新手音乐创作者完成词曲编录混,根据设置的流派和风格等参数获取由系统生成的一段音乐等,也包括让创作者使用自己的编曲和人声进行原创。

Boomy在2022年7月刚刚完成了110万美元的可转债轮融资

国内公司灵动音科技(DeepMusic)也是这个赛道的玩家。

灵动音科技成立于2018年,创始人刘晓光是清华大学2009级化学系本科生、2013级直博生;

首席测试官(CTO)苑盛成是清华大学工程物理系博士、美国罗格斯大学人工智能专业博士后;

而灵动音科技也是清华大学计算机系知识产权转化的公司。

凭借优异的背景出身,灵动音科技在成立之初就获得了华控基石基金、清华校友李健数百万元天使投资,并在A轮中又获腾讯音乐娱乐、完美世界的投资,目前业务在全民K歌已经落地。

灵动音科技运用AI技术提供作词、作曲、编曲、演唱、混音等服务,旨在降低音乐创作门槛。

目前,灵动音科技的AIGC产品包括支持非音乐专业人员创作的口袋音乐、为视频生成配乐的配乐猫、可AI生成歌词的LYRICA、AI作曲软件LAZYCOMPOSER等。

2.讲话型音频处理

与音乐型公司主打音乐创作赛道不同,讲话型公司具有更强的泛用性与更多元的应用场景,典型的应用场景就是声音克隆。

Resemble.ai就是一家专注于声音克隆的公司,它于2019年在美国加利福尼亚州成立,已在种子轮中获得200万美元的投资。

Resemble.ai使用专有的深度学习模型创建自定义声音,可以产生真实的语音合成,并实现包括给声音增加感情、把一个声音转化为另一个声音、把声音翻译成其他语言、用某个特定声音给视频配音等多种语音合成功能。

WellSaid Labs公司也是一家制作声音克隆产品的公司。

WellSaid Labs开发了一种文本转语音技术,可以从真人的声音中创造出生动的合成声音,产生与源说话人相同的音调、重点和语气的语音,从而提高团队合作配音的质量和效率。

WellSaid Labs于2018年在美国成立,2021年7月在A轮融资中获得了1 000万美元的投资,投资者包括FUSE、Voyager Capital、Good Friends和Qualcomm Ventures,投资后估值为5 834万美元。

3.解决方案型音频处理

标贝科技是一家典型的解决方案型公司,可以为各种类型的音频处理需求提供人工智能解决方案。

标贝科技于2016年由刘博创立,目前已推出包括通用场景的语音合成、语音识别、高音色TTS定制、声音复刻、情感合成和声音转换等在内的语音技术产品,其解决方案覆盖智能驾驶、智能客服、娱乐媒体、多人会议、多语种识别等多个领域,同时还研发了可以应用于博物馆等场馆讲解的虚拟数字人。

标贝科技于2022年10月完成B1轮融资,此轮投资者包括基石创投、联储创投,过往轮次投资者包括深创投、恒生电子、信雅达、凯泰资本

三 图像处理

图片因其创作门槛比文字高,信息传递更直观,所以在传统商业世界中的商业化潜力总体而言比文字更高。

随着越来越多的AIGC相关技术应用到图片创作领域,图像处理也将从广告、设计、编辑等角度带来产业的商业化机遇。

1.生成型图像处理

图像处理的第一类典型赛道也是对AI创造性要求最高的一类——生成型图像处理。

Stable Diffusion和Midjourney就是典型的生成型图像处理应用。

Stable Diffusion是Stability AI公司旗下的产品,具备强大的图像生成能力和开源属性,这使它成为众多广告从业者生成图片的生产力工具。

相比订阅制的Midjourney、付费也未必能用得上的DALL·E 2,Stable Diffusion凭借极为罕见的开源特征,积累了相当规模的用户群体和开源社区资源。

Stability AI的创始人兼首席执行官埃马德·莫斯塔克(Emad Mostaque)具有优良的教育背景与工作背景,不仅取得了牛津大学的数学与计算机硕士学位,还曾担任多家对冲基金经理,而对冲基金也是Stability AI早期的资金来源之一。

截至2022年10月,Stablility.AI已获得来自Coatue和光速的1.01亿美元投资,且估值将达10亿美元。

Stablility.AI目前已与亚马逊云科技达成合作,继续构建图像、语言、音频、视频和3D内容生成模型。

Midjourney由大卫·霍尔茨(David Holz)于2021年创立。

大卫·霍尔茨曾是著名公司Leap Motion的创始人和首席执行官。

在运营Leap Motion的12年间,大卫曾两次拒绝苹果公司的收购。

Midjourney产品的图像生成能力极强,与DALL·E 2、Imagen、Stable Diffusion等替代方案不相伯仲。

同时,Midjourney的商业化非常成熟,依靠会员订阅制进行收费,并提出了明确的分润模式(商业变现达到两万美元后需要20%分润),目前不需要任何融资就能进行正常运转和盈利。

Midjourney搭载在Discord社区上,用户主要通过Discord的bot机制,通过提交提示词(Prompt)获得图片。

截至2022年12月,Midjourney已经在Discord上收获了543万位成员。

国内也有类似的创业公司,并且能够提供更全面的解决方案。诗云科技成立于2020年12月,总部位于深圳,已获得IDG资本、红杉中国种子基金和真格基金的投资。

诗云科技的主要产品是内容生成引擎Surreal Engine,核心技术是深度学习和图形学,比如自然语言理解、3D建模、神经辐射场、GAN、神经渲染等。

诗云科技的典型业务是通过内容生成技术帮助客户生成图片和视频。

2.广告型图像处理

除了专业的生成型图像处理应用之外,与文字生成应用类似,图像处理应用也包含了许多专注于细分赛道的产品,比如广告。

AdCreative.ai是一家广告型图像处理公司,其产品能够通过AI高效地生成创意、横幅、标语等,还能够在连接谷歌广告和Facebook广告账户后实时监测广告效果,但更多时候它需要依靠模板,采取的商业模式也是常见的付费订阅制。

总的来说,广告型图像处理与生成型图像处理存在一定的包含关系,但前者的泛用性与前景不及后者。

3.设计型图像处理

设计型图像处理的主要客户群体是设计师这类小众用户群体,而Diagram公司就是推出这类应用的典型公司。

Diagram公司提供的产品Magician很好地展现了设计型图形处理应用的使用场景。

Magician的主要功能是使用AI实现文本生成图标、文本生成图片、生成与转写文案等设计效果。

想象一下做PPT时找不到合适的图标和配图的那种痛苦,也就不难理解为什么Magician只有三种功能,却依然对于设计师而言有较强吸引力了。

Magician的商业模式也是简单的订阅制收费模式。

国内公司Nolibox计算美学也是一家专注于AI智能设计的公司,成立于2020年,已获得初心资本的天使轮投资以及高瓴创投的Pre-A轮投资。

Nolibox计算美学已获得德国iF奖项、DIA中国设计智造奖项等设计大奖。公司的主要产品是智能设计平台——图宇宙,主打的卖点是“懒爽”,即相比于Adobe、Figma、Canva等中高门槛设计平台,任何人只要会打字就可以使用,AI在其中可以根据用户需求和喜好提供推荐素材、调整设计。

2022年10月,Nolibox推出AI创作平台画宇宙,已接入百度文心AI绘画大模型ERNIE-ViLG 2.0,核心功能为文本生成图像,功能上与Stable Diffusion、Midjourney具有一定相似性。

4.编辑型图像处理

编辑型图像处理应用以PhotoRoom(一款手机App)为代表。

PhotoRoom的核心功能是,用户只需轻轻一按,即可删除背景并合成一张展示产品或模型的图像。

例如,当你在一个乱七八糟的房间里自拍,然后想把照片背景换成纯色背景用于证件照,那你就可以用PhotoRoom一键抠图并更换背景。

虽然PhotoRoom的功能较为单一,但它的主打编辑功能以及普通用户用手机App就可以轻松上手的特性让这家公司获得了资本青睐。

总部位于法国巴黎的PhotoRoom已于2022年11月宣布获得1 900万美元的A轮融资,投资方包括Balderton Capital、Meta、Adjacent、Hugging Face。

四 视频处理

随着5G时代的到来,人们花在视频上的时间已经逐渐超过图文,视频也正在成为移动互联网时代最主流的内容消费形态。

因此,利用AI生成视频是应用拓展层的赛点,也是技术难度最大的模态。

  1. 生成型视频处理



从原理上来说,视频的本质是由一帧帧图像组成的,所以视频处理本身就与图像处理有一定的重合性。

因此,与图像处理类似,生成型视频处理也是视频处理领域里对于AI技术、“创造力”要求最高,同时也最受资本看好的赛道之一。

生成型视频处理赛道中最典型的公司是Runway,这家公司由三个智利人于2018年年底在纽约创立,其雏形是他们在纽约大学进行开发的论文项目。

Runway目前已通过3轮融资,筹集了9 350万美元的资金。2022年12月C轮融资5 000万美元后,Runway估值高达5亿美元。

Runway的图像处理功能与Jasper产品有一定的重合性,包括文字生成图片、图片生成图片等,它的独特竞争优势在于它同时具备图像处理、视频处理、音频处理的能力。

Runway在视频处理中依靠Magic Tools这一AI工具插件,能够实现视频编辑(Video Editing)、绿幕抠图(Green Screen)、视频修复(Inpainting)、动作捕捉(Motion Tracking),效率远超传统视频软件AE。

同时Runway也具备文字生成视频这一跨模态能力,但实际效果远不及文字生成图像。

另一家生成型视频处理赛道的公司是Plask,这家于2020年成立的韩国公司主打AI动作捕捉技术这一细分领域,可以识别视频中人物的动作并将其转换为游戏或动画中角色的动作。

Plask的收费模式除了典型的订阅制之外,还提供API和SaaS工具。

Plask最近一轮融资是2021年10月种子轮融资256万美元,投资者包括Smilegate Investment、NAVER D2 Startup Factory、CJ Investment和kt investment。

2.编辑型视频处理

生成型视频处理应用主要供需要创意的人员使用,包括电影制作人、设计师、艺术家、音乐家等;

编辑型视频处理应用与生成型视频处理应用相比,虽然艺术性与创造性减少,但能够非常直接地提高生产力,尤其是对于需要做视频、播客的博主来说十分重要。

Descript就是一家典型的编辑型视频处理公司,这家于2017年成立的美国公司在种子轮就获得了a16z的投资,并在2022年10月C轮融资中又获得了5 000万美元的投资,由OpenAI领投,a16z等跟投,融资后估值达到5.5亿美元。

Descript最早是为播客音频做编辑工具起家,后来才延伸到视频工具领域,所以在众多机构投资者中也有许多做播客和视频的个人投资者。

Descript的主要商业模式也是2C的订阅制,但也有2B的业务,比如为《纽约时报》、Shopify等媒体和企业提供服务。

Descript产品的主要功能包括视频编辑、录屏、播客、转译四个板块。

在目前的新版本中,Descript产品还融入了AI语音替身、AI绿屏功能以及帮助用户编写脚本的作家模式等AIGC相关功能。

另一家典型的编辑型视频处理公司是InVideo,由哈什·瓦哈里亚(Harsh Vakharia)在2017年创立。

哈什·瓦哈里亚曾是一家印度餐饮市场初创企业MassBlurb的创始人。

InVideo为出版商、媒体公司和品牌提供了一个视频创作平台,用户不需要任何技术背景就可以从头开始创建视频。

在用户输入静态文本之后,AI可以根据输入的内容按照预先设定好的主题将文本转换为视频,并添加母语的自动配音。

InVideo在A轮融资中筹集了1 500万美元,投资者包括红杉资本印度公司、Base Partners、Hummingbird Ventures、RTP Global和Tiger Global Management。

3.虚拟人型视频处理

虚拟人型视频处理是视频处理中一个特殊的细分赛道,主打为视频生成虚拟形象。

这个赛道有两家典型公司:Hour One和Synthesia。

Hour One是一家于2019年成立的以色列公司,开发基于真人创建高质量数字角色的技术,生成基于视频的虚拟角色,主打“数字孪生”。

Hour One由奥伦·阿哈龙(Oren Aharon)和利奥尔·哈基姆(Lior Hakim)创立,奥伦·阿哈龙拥有以色列理工学院的博士学位,曾担任一家研发心内微型计算机V-LAP的医疗设备公司和一家开发5G蜂窝及无线市场的射频技术的数字技术公司的联合创始人。

利奥尔·哈基姆曾在计算机硬件制造业公司cdride和金融服务公司eToro就职。

让Hour One一战成名的是在2020年国际消费类电子产品展览会(CES)中的“真实或合成”(real or synthetic)相似度测试,Hour One合成的虚拟人和真实人类看起来几乎没有差别。

同年,Hour One获得种子轮500万美元的融资。

2022年4月,Hour One完成了A轮2 000万美元的融资。

目前,Hour One的主要产品是Reals自助服务平台,主要功能包括创建虚拟人,以及输入文本自动生成相应的AI虚拟人演讲视频。

另一家典型的虚拟人型视频处理公司是Synthesia,这家于2017年成立的英国公司已在2021年12月完成B轮5 000万美元的融资,投资方包括Google Ventures、Kleiner Perkins Caufield & Byers。

Synthesia由丹麦企业家维克多·里帕贝利(Victor Riparbelli)和史蒂芬·杰里尔德(Steffen Tjerrild)创立,联合创始人还包括伦敦大学学院计算机科学系教授和慕尼黑工业大学视觉计算与人工智能教授,可以说技术背景相当强大。

目前,Synthesia的主要产品是2B端的SaaS产品Synthesia STUDIO,主要应用于企业传播、数字视频营销和广告本地化。

Synthesia的一个典型案例是为乐事薯片制作名为《梅西信息》(Messi Messages)的在线视频,只需要梅西录制5分钟视频作为素材模板,Synthesia就可以生成并让用户收到来自梅西头像发送的个性化比赛观看邀请。

4.解决方案型视频处理

解决方案型视频处理应用可以综合上述多种视频处理应用的功能,但会根据不同企业客户的需求定制产品与解决方案,这也是现在许多国内AI公司的商业模式。

两个典型的解决方案型视频处理公司是影谱科技和帝视科技。

影谱科技成立于2009年,将生成式AI作为通用技术组件支撑通用业务需求,将整个功能堆栈整合在一起,提供端到端解决方案。

简单来说,影谱科技基于AIGC引擎和AI数字孪生引擎ADT完成AI视频或AI孪生体的构建,然后根据客户需要应用于虚拟数字人、新闻可视化、赛事分析、虚拟游戏等场景。

2018年,影谱科技完成D轮13.6亿元的融资,创AI影像生产领域最高融资纪录,投资方包括商汤科技、软银中国等十余家投资机构及战略伙伴,并与商汤科技签订独家战略合作协议。

帝视科技成立于2016年,主要业务面向超高清视频制作与修复,融合了超分辨率、画质修复、HDR/色彩增强、智能区域增强、高帧率重制、黑白上色、智能编码等一系列核心AI视频画质技术。

帝视科技的主要B端客户包括中央电视台、北京广播电视台、河南广播电视台、福建省广播影视集团、中国电信、中国移动、华为等。

帝视科技还为实体经济客户提供基于AI的智能竹条精选机器人、汽车玻璃碎片智能扫描仪等软硬件解决方案。

简单来说,帝视科技为电视台等企业客户提供超高清视频解决方案,并为其他客户提供定制化软硬件解决方案。

2021年8月,帝视科技完成近亿元B轮融资,由海松资本领投。

       

【声明】内容源于网络
0
0
数组智控产业发展科技院
以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
内容 986
粉丝 0
数组智控产业发展科技院 以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
总阅读940
粉丝0
内容986