「接下来的 AI 行业发展有两条重要路径:一是 AI 需要真正落地应用,以价值驱动技术和应用的发展;二是需要回归实验室,探索下一次技术范式的原始创新。」
商汤科技联合创始人、首席科学家林达华在最近的一次 AI 论坛上如此说到。
本周,商汤在产品发布周上发布的如影营销 Agent,就是第一条路径的落地实践。切入直播电商领域,从直播场控、内容生产、店铺运营,到投放优化、竞品追踪,全方位用 Agent 来提升人工效率,解放人力。
为什么选择切入电商 Agent?大模型时代的数字人,已经可以替代人类主播了吗?在商汤如影营销 Agent 发布之际,我们和团队进行了沟通,更多了解到了当下电商直播领域,AI 的落地现状与困境。
⬆️关注 Founder Park,最及时最干货的创业分享
超 17000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。
最新、最值得关注的 AI 新品资讯;
不定期赠送热门新品的邀请码、会员码;
最精准的AI产品曝光渠道
01
五个 Agent,
覆盖电商运营全流程
对于电商来说,成本在涨、压力在增,但团队的带宽却是有限的,需要应对各种繁杂的、重复性工作:跨平台的数据收集分析、手工报表、实时监控等等。
可以说,今天的电商,已经不是人力能稳住的行业了。
在了解了直播行业的真实痛点后,商汤推出了这套由 5 个 Agent 组成的系统,分别对应了直播运营团队中的数字人主播、场控、直播运营、店铺运营和流量投放五个核心岗位。
•直播场控 Agent:像是给主播配了一个看不见的「超级助理」,发福袋、调库存、回应弹幕等所有繁琐的后台操作,都可以自动化处理掉。能够让主播心无旁骛地专注于内容讲解。尤其是针对人数不足的中小商家,也能以极低的成本,得到一个专业团队带来的流畅体验;
•直播运营 Agent:实时监控数据,能够自动化完成直播过程中的数据监控与记录,并在下播后快速生成多维度的分析报表。过去需要 2 小时的复盘工作,现在 20 分钟就能获得数据分析结果;
•店铺运营 Agent:解决的是电商运营中最复杂、也是价值最高的数据分析工作。能够自动化收集散落在不同后台的销售、流量、退款数据,制定营销策略。把过去人力需要耗费半天时间的流程,压缩至 10 分钟。例如,复杂的「退款分析」任务,能自动完成 7 个表格的数据下载与整合,提供比人力更全面、更深入的分析报告,单任务提效 20 倍;
•流量投放 Agent:能够 7x24 小时不间断地监控多个店铺的投放数据,自动汇总小时级报告,把流量投放的人力从 50 分钟的重复性数据整理中解放出来,仅需 10 分钟即可完成。
•数字人 Agent:如影数字人智能体产品,是数字人行业首创,不需要复杂的视频采集和高昂的棚拍成本,拍摄采集 0 成本,通过创新的复刻技术,可以实现「当日复刻,当日开播」。真人主播在黄金时段下播后,数字分身可以立刻接棒,无缝衔接全天 24 小时的直播。
更为重要的是,5 个 Agent 之间是相互协作、数据共享的,形成了一个从店铺策略、 直播运营、场控执行、流量助推、最后到数据回流店铺的端到端闭环链路。
举个例子,店铺运营 Agent 的深度分析,可以自动转化为直播运营 Agent 的监控目标;直播中的实时数据,又会即时反馈给流量投放 Agent 来调整策略。
这意味着,运营实现了自动联动,增长也能随之自动滚动。如影营销智能体,做到了过去任何单一提效工具无法实现的系统级价值。
02
以数字人切入,
解决电商直播中的工具「单点化」痛点
Q:你们最早是做「如影」数字人技术,后来是看到了什么机会,决定做电商营销 Agent?
如影:我们一开始的想法是,以数字人技术切入直播电商赛道。真人直播是现在电商营销非常主流的手段,但是一场直播需要主播、助播、线上场控、运营小助手等很多人参与,还需要场地和灯光设备。这是一个需要小团队协作才能完成的工作,所以人力和费用投入成本都比较高。
商汤在数字人技术方面有比较多的积累,过去两年,我们也一直在为不同品牌提供货架式电商的直播服务。
在这个过程中,我们有了新的发现。解决了直播本身的问题之后,我们注意到电商代运营公司的 IT 投入非常少,无论是淘宝、美团还是京东。这些公司大多是劳动密集型企业,AI 渗透率很低,即使有 AI 应用,也多是以单点服务为主。比如,通过 AI 生成图片或视频来制作物料,或者用 GPT 做一些分析,都只是辅助某个岗位上某个环节的一部分工作。
经过对这类公司的深度调研后我们发现,如果用 AI 打通各个岗位的工作流程,做成更闭环的产品,将极大地提升整个代运营的效率、分析的准确度,并帮助他们降低成本。这也是我们做这款产品的前提和初衷。
如影 Agent 后台界面
Q:如影营销智能体,号称能顶一个七八人的团队,具体都组合了哪些 Agent?在人力上,能帮商家节省到什么程度?
如影:我们是按阶段来发布营销智能体的产品功能的,现在并没有完全覆盖整个代运营链路的所有岗位,但未来的目标是要通过 AI 助力所有岗位。
目前产品主要覆盖的 Agent 有场控、直播运营、店铺运营、投流运营。此外,还有我们的数字人,覆盖了主播岗位。这五个 Agent 放在一起,能够构成一个相对完整的直播间人员配置。
关于效率提升,我们初步测算,目前产品还是以「AI 辅助」为定位。以场控为例,一个直播间一天可能播 12 到 16 个小时,需要四个场控轮班。我们的场控 Agent 上线后,可能只需要一个人来做关键决策或与用户的沟通工作,其余重复性的、配合主播的工作都省掉了。这个岗位的动效提升已经达到了 75%。
Q:场控 Agent,主要是用了 AI 的哪些能力来实现的?
如影:场控的工作,除了帮助主播回答弹幕问题,还包括发红包、发礼券、调整库存、教用户如何下单领福利、如何快速找到商品等,其中有很多重复性的操作。
产品的 AI 能力主要有两块。第一,AI 会实时监控整场直播的交易情况,包括 GMV、单量、用户画像和数量等数据,进行数据分析后可以告诉主播当前的完成情况以及预估的流量趋势;第二,针对用户在弹幕里的提问,关于福利、商品介绍等咨询,都可以通过我们的 AI 或大模型帮助场控回答。
还有一个重要的功能是「氛围组」。场控功能可以根据主播的情况或场景,适时地调整直播间氛围,把气氛炒起来。比如主播说「1、2、3,上链接」,后续的上链接过程其实都是场控在做的事情。
Q:在实际的直播里,互动环境很复杂,场控 Agent 在做决策和回答问题时,怎么保证稳定性和准确率?
如影:这方面我们已经积累了很多经验。商汤从两三年前就开始做数字人直播,并且是第一家把大模型引入数字人能力的公司,这个能力已经磨合了两三年。在帮助直播运营人员回答用户问题、维护直播间氛围这块,我们积累了很长时间的经验,回答效率和准确率都非常高。
比如,在弹幕回复这块,我们做了非常多的小模块。一场直播间里有很多货品,我们会通过货品链接,构建一场直播的货品知识库。同时,还要根据用户的问题进行意图判断,比如是闲聊,还是咨询某个商品的具体问题,根据不同的意图分不同的路径去回答。在大模型基础上,我们能根据用户的问题,精准回复到具体商品的尺寸、颜色,或者推荐穿什么尺码等。过去一年,我们实际上在不同平台运营着一两千个直播间,在这个过程中不断完善。
03
数字人 2.0 时代:从生硬的「坐播」,
到接近真人感、交互更自然
Q:相比于早期比较生硬的数字人「坐播」,现在在观感上有哪些提升?
如影:数字人直播技术在这两年确实有一个清晰的迭代过程。
一开始我们看到的数字人直播,往往是以「坐播」为主,也就是前期棚拍一个人坐着讲话,后期通过贴图和口型对齐来制作直播内容。但这样整体感觉会比较生硬,数字人没什么动作变化,互动性也比较差。这是我们认为的数字人直播 1.0 阶段,大家会觉得数字人不那么自然,也比较容易分辨。
现在进入了数字人直播的 2.0 版本。我们希望摆脱这种固化、僵硬的表现形式,更多地利用真人在直播中的数据。真人在直播时,动作幅度会大很多,可能会走来走去,会出画入画,角度变化也很大,还会拿着商品不断演示,与商品有不同的互动。有了这些元素,直播间的真实感会大大提升。
从技术上来讲,我们不断地在往真实感方面努力。技术发展之后,我们发现数字人带货的品类也有了变化。1.0 时代因为是坐播,主要以 3C 产品为主。但在有了更真实的数字人技术后,我们的品类就拓展到了鞋服类。一方面,对于更新迭代更快的品类,我们的技术能够跟上,前一天播的内容,第二天就能用数字人直播。另一方面,体验感更好,数字人可以穿着这些衣服,或者拿着鞋子做展示,整体的互动交互更自然。
Q:这种真实感和互动性,在技术方面是怎么做的?
如影:技术的提升主要来自三个方面。
第一,我们的算法放宽了对真人动作幅度的限制。原来为什么只能坐着或站着播?因为动作幅度不能太大,数字人算法在口型生成上有角度限制,可能只能做到左右正负二三十度。但现在我们的算法能做到正负八九十度,甚至大的侧脸也可以生成口型。
第二,我们对遮挡算法进行了更新。1.0 时代的数字人,商品和脸没有任何接触,手也不能放在脸上,否则会穿帮。现在,不管主播拿衣服挂钩、包包、鞋子,还是展示新做的美甲,在嘴巴和脸附近出现或离开,我们的算法都能很好地适配。
第三,是互动能力的提升,特别是让互动内容和商品本身有了更强的关联性,用户能在互动中得到他关心的商品问题的真实回答。
Q:在「数字人身体」的生成和动作上,AI 技术具体体现在哪些方面?
如影:数字人的生成技术一直都有 AI 的引入。因为生成数字人需要输入视频,并做了很多底层分析,比如人脸情况、人脸重建、遮挡情况等等,本身就有大量的 AI 介入。从 1.0 到 2.0 的技术演进,更增加了更多维度的算法能力,让它能处理更高的复杂度。
Q:在演示中,数字人会拿起衣服展示,这些动作是采集真人主播的动作,还是 AI 生成的?
如影:目前,数字人的动作还主要是采集真人主播在直播中的动作,相当于,主播在黄金时段的一些动作会在其他时间复刻,但他说的话术、回答客户的问题,是数字人直接生成的。
但我们同时也在做技术储备,未来动作可以由 AI 实时生成,这样自然度和丰富度相比现有又会有比较好的提升。另外我们还会将商汤最新的 SekoTalk 实时语音驱动数字人技术应用进来,这样生成的画面内容也会更加自然。
04
店铺运营 Agent 可以实现 20 倍提效
Q:你们提到店铺运营 Agent 能实现 20 倍的提效,这个数字是怎么算出来的?具体解决了运营人员在工作流里的哪些问题?
如影:店铺运营 Agent 是我们的客户最喜欢的一个模块,因为它解决的是电商运营中最繁杂、最耗时的工作。一个店铺运营的日常,除了要制定像「双十一」「双十二」这样的大促策略,很大一部分精力都花在了日报、周报、月报等报表分析上。
这个过程中,数据获取和整理特别繁杂。数据散落在各个后台,比如直播数据、投流数据、店铺数据等等。有些能下载,有些只是个看板,需要运营手动把数据抄下来。我们的 Agent 定位就是把这个链路完全打通,并自动化执行。它会自动去各个后台收集表格,甚至能通过识别截图里的数据,然后生成对应数据表,同时确保准确率。有了这十几个表单后,我们的 Agent 框架会按照预设的分析维度,自动生成最终的报表和分析内容。
20 倍的提效,是我们在一个具体的场景,「退款分析」中测算出来的。在抖音上,退款比例相对淘宝、京东等电商平台要高,所以他们内部非常关注退款原因、比例和用户行为。一个运营真人去做,需要下载 7 个不同的表格,光整理数据就要两三个小时,再花时间去分析,半天就过去了。但我们的如影营销智能体,从下达指令到给出非常专业的分析意见,全程只需要 10 分钟左右。我们的 Agent 能力不是单点的,而是端到端地解决这个岗位的实际问题,融合了行业 know-how 和自动化处理模块。
而且,AI 给出的专业意见往往比我们预想的还要好。因为人力分析时,可能只会重点关注几列关键数据,但 AI 可以覆盖所有数据维度进行评估,给出的报告更全面,对决策的帮助也更大。
店铺运营 Agent
Q:这五个 Agent 是怎么协作的?商家是必须打包使用所有 Agent,还是可以按需单独选用?
如影:其实,做 Agent 特别像做「人」。这五个 Agent 对应五个工作岗位,每个岗位都有相应的工作任务。我们把每个岗位的任务拆解下来,最小的颗粒度就是每个任务。Agent 之间协作的核心,是数据的实时共享。
举个例子,直播运营 Agent 会一直监控直播间的状态并实时采集数据。这些采集下来的数据会进入一个共享池,当店铺运营 Agent 需要这些数据来做分析时,可以直接调用。这样就达成了任务间的协同。
至于购买方式,我们的产品规划很灵活。每个 Agent 都可以单独使用和付费,当然,我们也会提供一个包含四五个 Agent 的打包服务套餐。
Q:品牌自播、中小商家以及头部达人,他们对于这套系统的需求有什么不同?
如影:差异很大。比如场控能力,在达人直播或者流量非常大的直播间,他们可能不太需要我们的场控。因为那种场景更多是靠主播 IP 价值获取认同。如果一个直播间在线人数超过几百人,弹幕滚动速度非常快,大模型来不及响应,问题就已经飘走了。这种情况下,就不需要我们的智能回复,而是主播看到关键问题后直接去讲。所以,流量大的直播间可能更关注如何让主播回答用户问题,如何与用户互动建立连接,关注点是不一样的。
Q:目前,店铺运营是围绕直播场景的深度辅助,还是已经能覆盖店铺更长期的日常运营了?
如影:我们的产品线最早是从数字人直播切入市场的,所以最先关注到的是直播运营相关的数据。现在我们拓展到店铺运营,已经触及到非直播领域了。目前以直播为核心向外延展,还没有 100% 覆盖店铺运营和决策的方方面面,但我们相信最终整个产品线会覆盖完整的店铺运营角色和相关数据。
05
服务品牌自播,
平均 GMV 能达到真人的 50%
Q:目前给客户的实现方案,是复刻已有主播,还是提供一个全新的虚拟人身份?
如影:目前跑得比较好的模式,是真人主播和数字人主播结合着来。一个店铺的主播每天能播四个小时,工作量就已经很大了。常见的一种方案是,真人在晚上 6 点到 10 点的黄金时段直播,剩下的一天 20 个小时,我们就可以用这位主播的形象去做复刻。然后就可以实现 20 小时的数字人直播,加上 4 小时的真人直播。这个模式的 ROI 是目前最好的。
Q:淘宝、抖音这些电商平台,对数字人直播会有政策限制或要求吗?比如,需要打上「AI 生成」的标签,会对转化率有影响吗?
如影:目前在淘宝、京东、美团、拼多多这些货架式电商平台,平台会对数字人直播进行管理和打分,如果分数太差可能会有限制,但我们的产品目前在行业里头部的,所以是没什么影响的。
而且对数字人直播,平台会打上标签告知用户。这也是符合国家相关政策。
我们发现,用户其实更关心的是,我想了解的疑问你能不能回答我,比如是不是正品?发货时间多久?有没有我想要的尺码?如果这些问题得到解决,他就会转化下单。所以打标签,对数字人市场反而没什么影响,现在数字人在一些大品牌直播间已经是一个标配产品了。
Q:这套数字人主播系统对于像李佳琦这种强 IP 的 KOL 是不是就不太适用?
如影:确实,这属于达人直播。我们判断短期内,数字人主播在这块和达人还是有差距的,因为达人更多提供的是 IP 价值和情绪价值,超出了我们现有技术能承担的范畴。我们现在更多关注的是品牌自播。
达人直播只占电商直播极少的一部分,大部分的品牌直播间或中小店铺直播间,用我们的技术是完全能满足需求的。
商家使用数字人进行直播卖货
Q:在你们看来,现在影响数字人直播转化率的主要因素是哪些?
如影:流量的因素肯定是有的。比如在夜间,流量肯定会比较差,这就会影响整体交易。另外跟数字人相关的强相关的因素就是数字人主播的互动能力,试想一下如果你看直播的时候主播对你的问题有问必答,句句回到心坎里,那是多好的一种体验。目前数字人形象声音都真假难辨的情况下,出色的互动能力是直播间的关键因素。
Q:条件差不多的情况下,真人直播和数字人直播的转化率有明显差别吗?
如影:过去一两年里,转化数据一直在提升。目前平均来看,数字人能达到真人直播 GMV 的一半左右。在一些比较好的情况下,数字人甚至比真人主播更好。
有几个原因:第一是,一些大的头部品牌,用户对主播的关注度并不高,他更认这个品牌;第二,数字人主播能回答的用户问题范围非常广。比如一个淘宝直播间挂了 200 个商品,用户可能会问到第 182 号链接,真人主播可能介绍不了,一般只介绍主推的十来款。但对于数字人,只要我们提前生成好话术脚本,它就可以介绍任何一个链接的商品,引导用户领券下单。这种情况我们观察到非常多,所以数字人的能力在某些方面已经开始超过真人主播。
06
站在商家视角,
更懂行业 know-how 的 Agent
Q:如影 Agent 是解决跨平台问题,比如一个店铺同时在京东、淘宝、抖音都有,还是只着重解决单一平台和品类?
如影:这是一个逐渐发展的过程。我们第一阶段还是以抖音平台为主,先从单一平台切入,后续当然会做跨平台的数据整合分析,因为品牌不可能只在一个电商平台运营。
Q:如果像抖音这样的平台方自己也做了类似的 Agent 工具,你们作为第三方的核心优势和壁垒是什么?
如影:核心优势包括:
第一,平台视角和商家视角不一样。平台做 SaaS 或数据报表时,出发点是平台视角,但商家看自己业务时是另一种维度。每个商家根据品牌、品类、经营周期的不同,关注的指标也不同。平台没有动力也没有能力去满足每个商家个性化的需求,这就是我们作为第三方服务商存在的价值和空间。我们从不同的维度上为客户提供服务。
第二,我们积累了深度的行业 Know-how。平台能积累大量数据,但从什么维度去分析,它们其实没有很深的代运营 know-how。这个 know-how 往往是在实战中积累出来的。我们这次发布的产品,是和行业伙伴一起共创的,把行业的经验融合了进去。我们不仅是提供数据,更是用行业的 know-how 提供了更精准的分析维度。
Q:像服装、数码,不同垂直行业的运营「know-how」差异巨大,对电商运营的关注点也会有明显区别。产品是怎么解决这些差异化问题的?
如影:不同平台玩法不一样,同一平台下不同品类的关注点也不一样。我们现在的策略是,优先集中在抖音平台,从相对标准化的品类切入,比如美妆,然后再向服装、3C 等品类延展。后续再覆盖淘宝、京东等平台。这和我们做数字人一样,先从效率优化空间更大的品类切入,逐步扩展。扩展时,会把各个品类的「思维链」和运营思路补充进来,就能覆盖相应品类的分析能力。
Q:这种模式会不会导致产品越做越重?因为不同品类对数据分析的需求不同。
如影:不会。区别主要在于分析的思维链逻辑,比如分析美妆和服装的退货,关注点不一样。但对于整个产品功能来说,都是电商卖货,是相通的。所以我们不需要扩展太多功能,只需要在模型层面,对不同行业的 know-how 和分析能力做相应的扩展和优化就可以了。
可以理解成,我们产品最底层是大模型能力,上层虽然叫「店铺运营 Agent」,但内部可能还有很多按不同品类划分的小 Agent。系统通过意图和品类判断后,会调用不同的小 Agent 去执行后续任务。
Q:希望用一套功能服务所有商家,还是会涉及一些定制化服务?
如影:我们尽量避免定制化,而是提供通用的场景、任务和服务给客户。
Q:现阶段,对于营销 Agent 来说,产品最大的技术卡点是什么?或者说,要把产品从 85 分做到 95 分,最需要突破的是哪一点?
如影:目前,整个链路分成三个环节:数据获取、分析处理、决策,这三块我们已经完整打通了。我们会在未来持续提升模型能力,也就是它处理不同任务的思路,这块是比较核心的。
Q:你们提到电商的 AI 渗透在加速,这个「拐点」是什么时候出现的?在电商之外,这套能力还被你们应用到了哪些有意思的新场景?
如影:数字人的交易占比提升,其实从前年就开始了,但大幅度提升是从去年开始的。我们看到越来越多客户在采购我们的数字人直播产品。这说明我们的算法迭代,让数字人能够触达的品类规模有了很大提升,尤其是在美妆、鞋服类市场。
除了直播电商,我们目前还有两个比较大的应用场景。第一个是教育场景,比如像新东方的老师,一个 60 小时的课程,原来自己拍至少要 60 个小时,但用我们的数字人产品,他只要花一个小时生成自己的数字人,后续 60 个小时的课时,可能花几十分钟就能把课件全部生成了。
另一个是办公场景,比如企业的对内或对外宣传营销视频,包括一些党政机关和媒体,用得也非常多。
还有一个是「数字人面试官」产品,用于招聘的初筛环节。目前,已经和一些央企合作,他们每年有上万人的招聘需求。用 AI 可以在三天左右完成一万场面试,并同时总结出初试结果,大大减少了招聘工作的压力。

转载原创文章请添加微信:founderparker

