大数跨境
0
0

2025百度云智大会开幕式精彩来袭(内含资料下载)

2025百度云智大会开幕式精彩来袭(内含资料下载) 百度智能云服务号
2025-08-28
0


828日,2025百度云智大会在国家会议中心二期举行。会上,百度集团执行副总裁、百度智能云事业群总裁沈抖分享了百度智能云打造云智一体、智能优先的新一代AI云基础设施最新进展和落地实践。


从2022年底到今天,短短33个月,算力、模型、应用纷纷爆发。今天,AI加速深入产业,Agents开始接管企业从生产到经营的各种环节,直接创造价值。我们正站在AI“超级周期”的起点,加速进入智能经济时代。


智能经济时代,需要新型AI云基础设施。十年前,百度智能云成立,率先强调云的智能属性。三年前,百度智能云又率先搭建国内最大规模GPU集群。今天,百度智能云全面升级,打造云智一体、智能优先的新一代AI云基础设施。


百度集团执行副总裁、百度智能云事业群总裁 沈抖


沈抖表示,百度智能云新一代云基础设施,以智能为核心,不断提升智能上限,拓展智能边界,引领中国AI产业系统化落地。如今,百度智能云已服务超过65%的央企客户和46万家企业,打造出130万个Agents,推动AI创造产业价值。百度智能云也将持续坚定投入AI云基础设施建设,与客户、伙伴共创未来。

点击下载
2025百度云智大会开幕式会议资料


以下为演讲全文:



尊敬的各位嘉宾,线上线下的朋友们,大家上午好!欢迎来到百度云智大会!


从2022年11月30日,OpenAI发布ChatGPT算起,到今天,短短33个月,整个世界围绕大模型发生了巨大变化:算力投入巨大,成就了英伟达3年10倍的市值增长,达到了4.4万亿美元;模型快速迭代,催生了4000个大模型,在榜单上各领风骚;应用爆发式增长,诞生了将近500家AI独角兽、吸引了近5000亿美元投资。


现在,既有为大模型能力叫好的,也有担心AI对人类威胁的;既有大笔投入、希望独占鳌头的,也有忧心忡忡,担心投入打水漂的……在技术代际变革的时期,所有情绪都是合理的。但有一件事是确定的:那就是大模型的智力上限还会继续拉高,大模型的应用会彻底改变行业格局。


这会带来巨大的市场空间,会诞生无限的可能性。上一次大的行业变革,还是在互联网时代。而AI创造的价值,会远超互联网。



互联网时代,核心是信息流通。网站和App,封装的是信息,交付的也是信息,信息流通足以创造相当的价值。而对于大多数企业来说,一个官网、几个媒体账号就够用了。


但智能时代不一样。它的核心是Agent,也就是智能体,封装的是智能,交付的是结果。所以企业可以只有一个官网、几个账号去展示信息,但一定会有大量的Agents去接管从生产到经营的各种环节,直接创造价值。


去年我们说,有多少场景,就有多少Agents。现在看来还是有些保守。现在的一个岗位、一个场景,以后就可能是几个、几十个Agents。


当价值的创造方式被重构,产业链也会进化,AI就会进入真正的“超级周期”。而今天,我们正站在这个超级周期的起点,加速进入智能经济时代!



智能经济时代,一定要有新的基础设施来支撑,这就是智能优先的AI云!企业对基础设施的要求,已经从“降本增效”转向“直接创造价值”。所有计算产生的智能都会被封装进Agents,参与价值创造和交付。企业的AI云,不再是成本中心,而会成为新型的利润中心。


十年前,2015年,百度智能云成立,那时候我们就强调云的智能属性,是全球最重视“智能”的云平台,也是迄今唯一用“智能云”命名的云平台。三年前,我们率先搭建了当时国内规模最大的GPU集群,从以CPU云服务为主的云平台转型到以GPU云服务为主的云平台。


今天,我们进一步升级,打造云智一体、智能优先的新一代AI云基础设施,一切以智能为核心,致力于提升智能的天花板、扩大智能的渗透面,成为中国AI引领世界、造福人类的坚实底座。



其实这几年,我们一直在思考:什么才是真正的AI云,怎样才能真正做到“智能优先”?


我们反复实践后的结论是:算力、模型、数据和工程能力,这四个,是AI云的核心要素。


算力规模会不断扩大,数据持续会提供原料,模型智能会加速提升,而工程平台通过强大的调度和编排能力将前三者融合,形成一个统一的、持续进化的AI云基础设施,这样才能支撑起Agent等大模型应用的飞速增长。



今天,中国作为AI技术的策源地,要保持领先,我们就要在算力、模型、数据、工程这四个核心要素上持续创新。总结起来,我们可以把他们分成两大类,AI计算和AI开发。


今天我来和大家分享一下百度在这方面的经验和进展。


先说AI计算。



在计算领域,Scaling Laws会持续发挥作用。极致的计算效率仍然是大模型能力上限提升的核心驱动力。


三年前,预训练的scaling大幅提升了模型的通用能力;那时我们就具备了建设10万卡超大规模集群的能力,可以帮客户把不同厂商、不同代际的GPU放在一个集群中管理起来,大幅提升了整体算力的可用性和利用率。


之后,稀疏MoE模型在保持计算量不变的情况下,可以进一步扩大模型的参数规模,给scaling提供了更大的空间。但MoE模型所面临的多专家并行的通信开销成为了新瓶颈。今年4月份我们发布的昆仑芯超节点,就是为了在更大参数规模的MoE架构下,进一步提升计算效率。


今年,还有一个非常明显的趋势,是强化学习的scaling。强化学习通过可验证的奖励机制,激发了模型更深层次的逻辑推理能力,它所采用的训推一体的计算范式,也带来了今年最重要的AI计算范式的变革。


今天,面对这三重范式的需求叠加,我们对AI计算基础设施做了全面升级。这就是我们今天的第一个发布——百度百舸5.0!



这些概念可能不是在座的每一位都很熟悉,但这确实是整个智能提升的基础中的基础。现在计算的瓶颈,主要在四个方向:网络、算力、推理系统,以及训推一体的整体计算效率。


百舸5.0在这四个方向上都做了重点升级。


先看网络。



大模型是一群机器一起算,既需要节点内的高速互联,也需要把多个节点组成单一集群,还需要连接各种存储。这里的关键是三张网,也就是X-Link、RDMA和VPC,都必须足够快。


在百舸5.0上,我们全面升级了这些网络能力!


百舸提供200Gbps的高速VPC网络,支持巨型帧传输,可以显著提升推理阶段KV Cache传输、训练阶段Checkpoint读写这些核心环节的计算效率。同时百舸还支持单集群十万卡RDMA互联网络,可以把端到端的延迟压缩到4微秒。今年MoE模型已经进化到了万亿参数规模,面对这种海量、高频、延迟敏感的All-to-All通信的瓶颈,把模型放进单节点跑肯定是最优的策略。所以我们4月推出的昆仑芯超节点,其中核心突破之一,就是百度自研的X-Link协议,把卡间带宽提升8倍,把延迟做到国内最低,让专家并行的通信更快,最大程度地释放芯片的计算性能。



接下来,我很高兴的告诉大家:昆仑芯超节点,已经正式上线百度智能云的公有云服务!


目前最大的开源模型参数达到了1万亿。只需要几分钟、1个云实例,就可以轻松把它跑起来。


根据我们最新的测试结果,它的性能达到了上一代实例的8倍!单卡吞吐提升近一倍,比国内同类的领先产品,还要高出15%!



这么强大的网络和算力,要真正转化成用户可感知的体验,关键在于推理系统。


因为在大模型推理上,推理的工作负载会随着流量规模、上下文长度的变化而变化。为了保持高吞吐、低时延,往往需要多个节点之间协同完成计算和通信。如果通信和计算的调度不够高效,就会造成算力空转、等待时间增加,推理性能下降。特别在稀疏MoE架构下,专家并行对调度的同步提出了更高的要求。这个时候,单靠堆卡是不够的,需要做系统性的优化。


今年4月,我们把PD分离、大规模多机专家并行的效率做到了业界领先!今天面对大规模、复杂MoE的场景,我们进一步升级,推出百舸5.0推理系统!


在算子层,我们把Prefill和Decode、视觉和语言、Attention和MLP这些计算方式差异大的模块,全部解耦,实现了数十倍的吞吐提升。


在引擎层,面对超长文本的推理,百舸可以根据输入长度,自适应地调整张量、序列和专家的混合并行策略,大幅提升吐字效率。对于长度16K的输入,首token延迟降低到0.5秒;对于128K的超长文本,我们也能做到3秒内出第一个字。


在大规模推理请求下,token计算会被分配到模型中的不同专家、不同硬件上去并行处理,它们之间的同步是一个巨大的挑战。百舸实现了数据并行、专家并行的双重负载均衡,进一步提升了并行效率。


另外,百舸首创了事件驱动的分布式KV Cache,有效规避重复计算,实现“用存储,换计算”。


在百舸5.0的推理系统上,DeepSeek R1的推理吞吐可以再提升50%。也就是说,相同的时间、相同和成本,用了百舸,能让模型多做50%的思考、多干50%的活。



刚才,我讲了网络、算力和推理。最后是强化学习训推一体,这也是当前最重要的计算范式。


但这里有非常复杂的工程问题,我们需要让「推理采样、奖励评估、训练更新」这一条流水线高效运转,实现整体效率最大化。


这里最大的挑战,是训练和推理有完全不同的计算特性:它们的计算负载结构、算法逻辑都不同,甚至还会用到不同类型的芯片。


年初DeepSeek R1刚推出的时候,我们看了一圈,当时市面上可用的强化学习框架,效果都不够好。


经过多次实验和工程创新,百舸取得了很大的进展,这就是我们的百舸强化学习框架。


我们在训练、推理、存储和工具调用的每一个环节,都做了极致打磨,把单点吞吐推到极限。


不仅如此,我们还通过系统性工程能力,实现了全局效率最优,从最强“单点算力”进一步做到最强“系统吞吐”,把强化学习的整体效率提升到行业新高度。


现在,这套能力已经支撑了百度内部在金融、教育、编程、客服等多个领域的强化学习训练,效果很明显。



这就是百舸5.0,迄今为止最强大的AI计算平台!


把计算效率推到极致,不断突破智能上限!



它有什么用?我们知道具身智能,在大模型的助力下,实现了爆发式增长,把AI从虚拟空间带进真实世界。


对于具身智能来说,模型迭代的速度至关重要。真实的世界中,环境复杂、反馈模糊、任务不确定性大。想要模型保持领先,它所依赖的计算平台必须强,要能高效地支撑各种模型的各种训练范式。


北京人形机器人创新中心是国内领先的具身智能研发企业。近期,中心发布了具身世界模型、跨本体VLA模型等一系列行业突破性成果。它的底层,就是我们刚刚讲过的百舸。


百舸提供了一站式高效能云端开发IDE,支持中心全场景、全流程的研发工作,实现了两倍提效。


目前百舸已全面适配主流开源具身VLA模型,同时在WM世界模型和VLM模型上,全面实现了提效。尤其在VLM模型上,强化学习是模型在复杂环境、交互反馈下实现能力进化的关键手段,中心正是基于百舸将强化学习的训练速度提升了一倍多,显著加快了模型迭代节奏。



现在,百度智能云已经支持了包括北京、上海、浙江、广东创新中心在内的具身智能“国家队”,也在为产业链上超过20家重点企业提供强大支撑。具身智能正从实验室走向现实世界,我们希望包括百舸在内的一系列产品技术可以帮助大家抓住这次窗口期,抢占主动、赢得先机。



此外,我们也在和金融、自动驾驶等多个行业的更多客户和伙伴展开了广泛合作。


我们很高兴看到,无论是央国企、大型企业,还是快速成长的初创公司,百舸都在帮助大家,把极致的算力转化为实实在在的创新成果。



其实在展区里有很多伙伴的成果,大家可以进一步地参观。刚才分享的,就是我们的AI计算平台。今天下午,我的同事侯震宇会进一步展开,分享我们在计算领域的创新实践。


硬核的计算之上,是AI开发。



今天AI开发的核心,是Agent。但今天的Agent,和一年前已经完全不同。


过去,Agent主要处理一些步骤简单、规则明确的任务,为此,千帆提供了一些基础的工具调用、工作流编排能力。


现在,模型能力更强了,Agent也能处理更加复杂的任务。我们接着提供了更丰富的上下文管理工具,把RAG、记忆、工具调用等能力统一封装,让Agent能调动更多的外部工具和资源。


但是模型同时理解、处理多个任务的能力毕竟是有限的。在一些复杂场景下,把一个任务拆解开,让多个Agents协同工作,能取得更好的效果。这时候,根据场景选择合适的协作模式和沟通方案就成了提升效果的关键。


未来,这些处理不同复杂度问题的Agents会长期共存。企业需要一套真正系统化的AI开发基础设施,既要易用,又要强大,还能支撑Agent开发范式的持续创新。


而这也是我们做千帆的初心。我们要打造一个高效的AI能力工厂,帮大家降低Agents开发门槛,加速应用落地。


所以,今天,千帆平台再次升级,这就是千帆4.0!



全新的千帆,就是以Agent为核心的一站式企业级服务平台,为开发者提供Agent开发所需要的模型、Agent编排、数据和企业级服务等能力。



首先是模型,模型的能力决定了Agent能力的上限。


今天,千帆的模型库迎来全面升级!为您提供包括深度推理、视觉理解、视觉生成、语音等超过150个模型,让您可以第一时间用上最合适的模型,灵活适配,无感切换。


我首先介绍一个近期发布的模型:百度蒸汽机。



这是我们自研的视频生成模型,登上了Vbench全球权威视频生成榜单的榜首。


在影视、营销场景,表现很突出。


我们看下效果。



可见这种视频生成的能力,可以在不同的行业里面跟您的场景结合起来,所以感兴趣的朋友可以来千帆体验。



在大模型应用落地的过程中,很多行业和场景,有自己独特的数据和业务问题,通用的大模型在效果和性价比上很难满足客户需求,因此需要定制相应的专精模型。


今天,千帆行业专精模型库再次升级!在金融、视觉理解、语音等多个专业领域,使得模型的效果更好、成本更低、性能更强。


千帆慧金金融行业模型,在金融行业的认证考试、推理计算等公开评估集上普遍超过了SOTA的通用模型。特别是在营销客服、投资咨询这些场景,优势更明显。


千帆视觉理解模型,在20多个开源评估集上效果领先,在OCR、文档理解等教育场景有显著优势。


很多基座模型参数规模太大,不适合直接部署在企业环境或移动端上。而千帆的行业专精模型,尺寸小,效果好,只用百亿参数的规模,就能在特定任务上超过千亿参数模型的效果。企业不用再担心部署限制,可以按需组合使用,灵活便捷。



比如用于角色扮演的Character模型,就给《逆水寒》的玩家,带来了不一样的体验。


现在,网易和我们合作,基于文心大模型让NPC能理解玩家意图,有了灵魂。它们能根据自己的人设,用特定的语气、风格和玩家互动。


屏幕上左、右两侧是我在游戏中遇到的两个NPC。我问他们同样一个问题:“在纷乱江湖中,你最珍视的是什么?” 



可以看到,同样一个问题,不同的NPC,人设不同,回答的内容、语气就很不一样。


以前的NPC靠的是固定脚本;现在用大模型,只需要给它一个人设和主线任务,就能自动生成符合剧情的对话。这样,开发者可以把精力更多放在游戏的世界观、核心玩法的设计上,打造出更有生命力的游戏世界。



除了我们讨论的这些行业专精模型,客户往往还会遇到各种具体问题,需要通过模型精调去提升特定任务的效果。


传统的SFT是一种精调方式,“手把手教模型怎么干”,它需要用大量高质量数据做示范,一个简单的场景可能就得上千条数据,这对大部分企业来说,还是有难度的。


相比准备这么多示范数据,制定一个衡量好坏的评估标准要简单得多。


这就是我们今天要介绍的另一种方法——RFT。通过提供评估标准或奖励模型,我们可以让模型自己在业务场景中不断自我优化,发挥更大潜力,这对于目标清晰、评价标准明确的场景,比如代码生成、客服问答等场景,尤其适用。


今天,我们就发布千帆RFT工具链,支持您自定义奖励系统,一站式完成RFT全流程。


我们的客户智联招聘,在人岗匹配场景,对百亿模型做RFT,只用了少量数据就取得了非常高的准确率,效果可以媲美千亿参数的DeepSeek R1。



模型只是开始。我们还需要有好用的工具和编排框架,才能开发出高价值的Agents,让它们更可控而且有能力处理更复杂的任务。


为此,今天,我们全新升级千帆Agent服务平台!



首先是RAG。现在大模型应用落地,RAG仍然是控制幻觉、提高准确性的有效手段,而且非常经济。


今天,我们发布多模态RAG,支持图片、表格等多种类型的数据检索,把企业沉淀的大量历史数据真正用起来。


我们看一个例子。



中国智造加速出海。九号用了短短五年,实现了全球智能电动车销量第一。
高增长也是高挑战——好的产品是入场券,好的服务才是赢得用户口碑的关键。九号的多语种智能客服,用了多模态RAG,能更准确地回复车主的使用问题。


比如车主骑车的时候,仪表盘突然出现一串看不懂的代码。拍个照发给客服,客服就会用RAG去对比说明书里的内容,用多语种帮用户处理。


九号致力于让全球车主都能享受同样高效、可信赖的骑行体验。我们很荣幸,未来可以陪伴九号这样的中国企业一起,把服务做到世界各地,也把中国AI的能力带到世界用户身边。



如果说RAG让Agent答的更准,那工具调用就是让Agent做的更好。好用、强大的工具,会极大地扩展Agent的能力边界。


今年上半年,我们在国内率先实现了MCP协议的全生态兼容,并在4月份正式推出了千帆企业级MCP服务。


今天,我们再次升级,支持更广泛、更深入的MCP服务!


接下来,我重点为大家介绍,百度AI搜索MCP Server。



毫无疑问,大模型已经成了我们获取信息的重要方式,


但我们知道,大模型训练是有周期的,大模型看过的数据都是过去的数据。比如OpenAI最新发布的GPT5用的数据是截止于2024年9月底的,所以他们不可能了解此时此刻的世界,也就没法回答很多时效性的问题。


这时候,实时搜索就成了刚需,可以弥补大模型的先天缺陷,成为大模型提供服务的关键支撑点。


基于百度25年的搜索经验,百度AI搜索无疑是最佳的选择。


虽然刚刚推出几个月,AI搜索每天的调用量已经达到数千万次,调用的客户覆盖了互联网、手机、汽车、金融、教育等行业。


我举两个例子。



在展区里,大家可能会注意到有两款AI玩具:飞飞兔和度熊。它们背后接入了大模型,可以像朋友一样陪孩子聊天。


比如,孩子问:“今年中秋假期有什么好看的新电影?” 大模型就会结合百度ai搜索,去查询今年的中秋放假安排、最新的影院排片和电影介绍,给出准确答案。



vivo的“蓝心小V”手机助手也接入了百度AI搜索。


北京的秋天是个好季节。每年随着气候环境的变化,鸟类迁徙的路线和时间是不同的。我可以问它,“这周末北京天气怎么样?帮我规划一条最佳观鸟路线。”蓝心小V通过调用百度ai搜索,查询北京各大观鸟协会和爱好者的观测日志,总结鸟类实时迁徙状态,再结合“北京鸟类志”这类权威信源,就可以给出实时、可靠的答案。



除了百度AI搜索这些百度自有的产品能力,千帆也在大量接入包括支付宝、同程旅行在内的一批优质第三方MCP Servers。


您接入一个MCP Server,就相当于接入了它背后的整个数字系统。您拥抱MCP生态,就相当于拥抱中国互联网30年的数字化成果。


除了使用这些已有的MCP servers,开发者也可以在千帆上开发和发布自己的MCP servers,发布后,百度搜索会快速地索引这些servers,让更多人发现它们、使用它们。



刚才讲的是如何提升单个Agent的能力。在实际业务中,很多问题天然适合拆解成多个类型的子任务,通过不同的Agents协作来完成。


比如在科研场景下,不同的Agents可以聚焦不同的环节,有的做方案调研,有的做实验设计,有的写报告……他们各司其职、配合默契,研究进展就能快很多。


当然,这也带来了新的挑战:遇到复杂任务,如何高效规划,让多个Agents有效协同,给出更稳定、可靠的交付结果,至关重要。



为此,我们正式发布:千帆多智能体协作模式!


大家知道,前段时间比较火的manus,就是一个多智能体协作的Agent。现在,千帆上提供了多智能体协作框架并且预置了一些高质量的Agents,基于这些能力,您可以在千帆上,定制自己的manus!


比如,我们用千帆,为一个零售客户,定制了一个零售分析咨询的Agent。



我们知道快消零售行业竞争很激烈,信息变化快、变量多;经营决策频率高,而且往往涉及多个渠道和环节,整体任务很复杂。这时候单个agent的能力就很有局限性。


而多个智能体就可以像专业团队一样分工合作,管理者只需几分钟就能获得清晰、准确、具有很高咨询价值的报告。


我们来看一下。



未来,千帆上也会提供更多的场景样板间,帮大家在更多的业务场景下,高效开发自己的智能体。



当然,不论是精调模型还是开发编排Agent,数据都是基础,甚至成了比算力都重要的核心要素,因为算力是标准的,可以买到,而数据才是秘密武器。


从我们多年的实践来看,工程师有50%到80%的时间,都得花在数据治理上。



我们的千帆数据智能服务平台,覆盖了多模态数据采集、转换、处理、检索、服务等数据治理的全生命周期,通过一站式多模态数据管理与处理能力,以最低成本,最大化数据价值!


我们已经服务了百度内部,像文心大模型和文库等多个产品的研发,数据开发效率提升了30%到6倍不等。在外部,我们也服务了多个头部车企和时空壶这样的明星企业。



刚才讲的模型、Agent编排和数据服务平台,会极大地简化Agent开发的过程。


但把Agent做出来只是第一步,当Agent被嵌入到企业的核心系统、成为企业运营的一部分、要成为“真正有用的AI”的时候,必须要求服务稳定、安全、可控。这里考验的是企业级全栈AI能力。



千帆实现了关键指标、链路、日志的全链路检测。开发者可以清晰看到每一次运行中各环节的输入输出和性能表现,快速发现和定位问题,实现精准调试、高效优化。同时,千帆还提供了完善的权限管理和企业级数据安全保障。



这就是千帆,迄今为止功能最完备的企业级AI开发平台!



它现在,服务着包括央国企、金融机构、互联网、高校、创企等千行百业的几十万家企业,帮助大家快速创新。



我们自己,也基于千帆和百舸,开发了一些开箱即用的Agents。希望用AI帮大家解决产业里遇到的一些具体问题。



4月份的百度开发者大会上,我们发布了一见5.0,一句话生成专业级视觉AI应用,把AI带进车间、产线,保障生产安全,提升产品质量。



我们知道,中国的制造业非常发达,是最有活力的。特别是这几年,个性化定制的需求越来越多,小批量、多批次的生产模式成了常态。但订单类型一变,生产工序就要跟着变,管理不好,就会影响到产品质量。


过去,企业大都用小模型来管理操作工序,训一次往往就要几周的时间,很难跟上这种节奏。


今天,我们发布:一见·工序合规分析!只需上传一段标准操作的视频,几分钟后,一见就能生成一个SOP检测任务。



下面我们以三一能源装备制造为例来看一下。



屏幕上显示的,是安装伺服控制器加热器的标准作业流程,看起来很复杂。


现在只需要将正确的操作视频上传给一见,它就能够自动解析整个过程,生成完整的SOP规则,保障这个复杂工序操作不出错。


为了让大家有更直观的感受,我现场做个演示,组装一个“边缘计算盒”,看看一见是怎么工作的。


我们先让一见学习这个计算盒的标准工序,生成一个SOP检测任务。时间原因,这部分我们用录屏示意。



一见在我操作错误时能及时预警,提醒我纠正错误,降低次品率;管理人员也能够通过一见,了解员工在产线的操作情况,不断去优化工作流程、加强员工培训。


这样的能力,已经在3C、装备制造、餐饮连锁等很多行业场景落地,大幅提升了产品直通率。


未来,我们希望一见能够走进更多企业生产和运营场景,帮中国企业,用更低的门槛和成本,实现全方位的视觉智能,提高国际竞争力。



前段时间,百度慧播星做了一场罗永浩的直播,很多人看完才发现是AI数字人,效果媲美真人。


不仅是电商直播,我们也基于慧播星的技术打造了营销、招聘等七个场景的数字员工,开箱即用。当然,您也可以通过我们的平台定制企业专属的数字员工。


最近吴彦祖教英语非常火,很多网友都想跟着练。我们的客户雅识教育,是一家专注AI教育的企业,我们帮助雅识教育定制了一个 “吴彦祖数字英语教练”。



今天咱们就现场测一下效果!



虽然市面上也有一些AI口语陪练。但我们加入数字人形象之后,用户感觉就像在和真人对话,会更轻松、更自然。再结合一些大众喜爱的IP形象,用户的学习会更有动力。



今天,我也很高兴地告诉大家,吴彦祖正式担任百度智能云数字员工首批体验官!


现在,数字员工已经应用在超过100个行业场景,我相信,不久的未来,教育、客服、政务等各类服务体验都会被重塑。



每一个Agent背后,都是一整套系统能力。


每一代基础设施的使命,都是激发新产业、创造新增长。


我们很高兴地看到,有一批年轻的企业正在快速成长。


接下来,让我们把舞台交给他们,听听他们的故事。


VAST创始人兼CEO 宋亚宸


大家早上好,我是VAST CEO宋亚宸。我来给大家讲点好玩的,我们公司是一家做AI3D大模型的公司,首先什么是AI3D大模型,核心的点就是用文字或者图片可以去生成一个3D的模型,在游戏、动画、影视,包括工业设计、3D打印中都有很多应用。我们基于百度百舸的推理能力,其实服务了大量的现有的客户,比如说在全球范围内我们服务了超过300万的专业的建模师,超过四万多名企业客户,以及700多家大客户,基于百度云对于推理能力的不断的优化,我们下降了成本,提供了稳定的服务给我们的国际客户。


同时,除了推理能力以外,我们团队还有大概50多个清华的博士,我们发了50多篇顶会的论文,做了很多开源的一些项目,都是基于百度百舸本身的强大的训练能力和算力的支持。


首先我们来看看AI3D是做什么的,我们看到这个技术是在两年多之前才被人类刚刚发明出来,在这短短的两年,我们公司也就成立了两年,在短短两年之内它发展的速度非常快,我们现在已经能够仅仅用文字或者图片在几十秒内就可以生成一个3D的模型。同时我们允许企业做大量的风格化,去做自己的定制化,去生成风格化的一些3D模型。


除了本身3D的模型生成以外,我们还做了一系列的3D相关的衍生能力,包括了智能部件的分割,生成出来的3D模型可以变成不同的部件,每个部件是完整的一个3D零件。比如在3D打印的时候可以分部件把它打印出来重新组合在一起。当然,我们在游戏或者动画产业的时候,可以生成一个3D模型以后做快速的二次修改。同时我们还做了智能贴图,要对我们AI生成的贴图不满意,可以有非常简单的魔法笔刷调整它的简单的LOGO,或者脸上想要一个小痣,很多细节。


我们还自研了一套基于Transformer的自回归路线的一个低模的生成,原来我们生成一个模型几百万面、几十万面,现在在一些专业的管线里面可以直接生成几千面,甚至只有几百面。这样子的话在游戏,或者XR,或者元宇宙等等的一些管线里面可以被很好的使用起来,可以大大减少了吃硬件的性能。


当然,除了生成静态模型以外,我们希望3D是一个实时可交互的状态,所以我们做了一个万物骨骼绑定的一整套的AI算法,生成出来的3D模型不管是一个双足的人形角色,还是鸟、龙、鱼,还是昆虫,甚至是八爪鱼和蜘蛛都可以自动做AI骨骼绑定,动作的生成,生成的3D模型就是可交互、可动的。我们现在的这一整套的能力都是重新开发了一个AI3D的平台,叫做Tripo Studio,目前不管是智能的部件的分割、低模的生成、骨骼的绑定,都是我们世界独有的一些AI3D的能力。


非常值得一提的是,我们在今年的,就是这个月的时候,我们今年8月份刚刚发布了Tripo3.0,也是基于百度百舸的能力。想当年我们两年多之前公司成立,只能用几十张卡,后来几百张卡,现在用几千张卡,生产出来了全新的两百多亿参数的一个AI3D的大模型。可以看到它生成的效果比原来的1.0、1.5、2.0、2.5都要好不少,并且已经能够在真实的场景中落地,并且能够去改变很多工业的管线。这个事情是一个非常革命性的变化,我们把它叫做AI3D的IMAX的一个新时代。


既然AI3D已经成熟到了一个所谓的IMAX的时代,那它在哪些场景有具体的应用?大家非常好想到的就是在游戏的美术行业,原来我们建一个模需要几万块钱,用手工,一些艺术家用手工慢慢雕需要几周时间。现在去生成一个模型只需要几十秒钟,0.001块钱。当然,这个成本基于百度百舸的推理能力,能够不断下降,最终我们相信有一天它生成一个3D模型的成本将会无限接近于零,未来每一个人都可以零门槛、零成本、实时的去创作属于自己的内容和体验,游戏会是其中很重要的一部分。


除了本身的降本增效以外,我们还看到了有很多新的玩法,比如说这是一个在XR领域的一个游戏,它是一个得奖的作品,原来我们在这个XR里面钓鱼都会有很多预设的3D模型,有手工抠很多,几百条鱼你可以慢慢钓。现在是可以直接生成,大量的关,几百关,每一关所有的鱼都不一样。比如我在中国的长江里面钓,我就会钓到长江特有的鱼,它实时的就会去问LM,说有什么样子的鱼在长江里能钓到?它给了答案以后直接生成3D的,我们就可以看到一个完全基于长江的流域会有的特殊的鱼。所以它的整个游戏时长就会变得特别的长,而且它的玩法就会变得非常的自由度高。


这是我们一个大城市的开发者做了一个3D的日记本,他在一个Hacksaw里面仅仅花了24小时,基于我们Tripo能力快速做了一个3D日记本,每天开心的不开心的,今天被同学欺负了,明天被老师骂了都可以告诉AI,在他的3D世界里面生成一个属于他自己的日记本。


当然,除了本身的内容和体验的创作成本下降以外,我们看到很重要的设计成本也在无限下降,首先就是我们最近经常提到的空间的智能,一方面是室内空间,比如酷家乐是我们的战略合作伙伴,可以在酷家乐的APP里快速生成属于你想要的各种各样的家居进行摆放。当然还有大型的,在文旅的景区,在一些公园里面可以生成一些景观艺术去进行设计。包括一些建筑设计师在BIM里面可以快速用AI3D生成属于自己的设计图。甚至特别有意思的是,我做了大量的用户访谈,其中有10%的用户是一些艺术学院的应届毕业生,他用AI3D去快速的把自己的毕业设计给做出来,然后骗老师快速毕业,这也是一个很有意思的使用场景。


当然,设计除了空间设计以外,还有物体、工业的设计,我们看到以前都是一些专业的工业设计师去进行,不管是手办还是玩具,还是积木等等的设计。现在每一个人都可以成为一个有意思的工业设计师,不管是你喜欢的IP,比如黑神话悟空,可以快速的把它生成一个手办,一个钥匙扣,一个冰箱贴,一个键帽、杯搭、笔帽等等的一些格式你可以自己生成。还是说你自己设计出来的IP,我只有一张图,只有一段文字,我可以快速的生成一个3D模型,你就可以拥有一个自己的赛博手办,独一无二的赛博手办。


这是一种设计的能力,当每一个人都有设计能力的时候,3D的设计就会成为一种新的需求的表达。我们看到说互联网时代,大家表达自己的需求是用文字的方式,不管是在百度里面搜索,还是在淘宝里面说我是要什么什么东西下单,它自动就会跳出来。当手机,移动互联网逐渐走向成熟,有了手机摄像头,大家逐渐习惯用图片进行表达自己的需求,比如今天你的衣服很好看,我拍一张,搜同款。或者说我在百度的搜图里面,APP里面,说这种花是什么,一拍一查就能查得到。


3D未来会成为一个更大众的,更定制化的,也是信息密度更高的一种全新表达形式和信息载体,让你能够更好的表达自己想要的语言和想要的实际的需求。


所以最后,我总结一下,AI3D大模型,我们认为说未来可以让每一个人零门槛、零成本,实时的去进行创作,去进行设计,我们希望能够跟百度智能云携手,去探索更多的实际的落地场景,服务于更多的C端和B端的客户,感谢大家,谢谢。


李未可创始人&CEO 茹忆


感谢百度智能云的邀请,让我今天能有机会给大家做一个分享。


李未可这家公司来自于我们对AI的相信,Let AI Awake,所以我们公司英文名叫Lawaken。


今天,我们在一个AI技术飞速发展的时代,从2016年3月AlphaGO打败李世石,到2022年11月30号ChatGPT发布,整整六年六个月。现在AI技术迭代速度加快,从2023年开始,我们每半年AI技术的迭代其实都超过了过去十年。


AI技术是人类认知和知识体系的总和,它具备全人类所有的知识,甚至我们还在不停的训练,让它具备更多人类的认知。我们希望最后能让这个认知赋能给每个人,这个是我们做AI眼镜的初衷。因为我们相信,我们需要一个原生的AI设备。


为什么这个原生的AI设备是眼镜?因为它离人的交互器官最近,它在设计的时候就是可以和人进行交流的,就是可以听见人说话的,就是可以看见人类世界的。


手机是为移动互联网而生的,它是移动互联网的原生设备,但是AI眼镜则是因大语言模型而生的。我们一直认为它就是原生的AI设备。


在进行产品设计的时候,我们认为交互按层次可从多到少分类,我们可以从语音交互开始,所以有了眼镜+语音交互,有了语音+视觉,多模态的交互。


同时再加上显示,就可以让机器像人一样交流,可以听得见人讲的,可以和人一样去对话。其次,眼镜可以看见人看见的,所以有了摄像头。最后,我们会发现当我们高密度的沟通的时候,我们可能需要一个PPT,就像我们今天一样,所以说我们有了显示,可以把它显示出来。


但是作为一个优秀的AI设备,或者说一个很好的AI眼镜,它如果是一个原生的AI设备的载体的话,我们希望这个AI设备是一直在线的,一直可以和我们交流的,它需要长时陪伴。


这就要求我们的AI眼镜能够佩戴一整天、使用一整天。在过去三年的探索中,李未可给AI眼镜定了一个标准,就是重量一定要低于40克,因为只有在40克之内,我们才能真正的佩戴一天,续航要超过12小时,这也保证了它能让我们真正的去使用一天。


有了这样一个AI的眼镜,如何将AI的能力还给每个人,赋能给每个人?今天百度智能云的沈抖总讲了很多关于Agent的事情,但是我们如何和这个Agent交互,一个在AI眼镜的Agent,它可能是我们沟通交互的一个,我们叫智能助理也好,一个Agent助理也好,它是第一个人,那我们给它起了一个名字,叫ZeroAgent,它可以帮我们做很多事,但也有一些事是它不能做的,但是它总可以帮助你找到那个合适的Agent,来完成这件事。


所以说通过ZeroAgent,通过百度智能云提供的类似AtoA的接口,类似MCP的协议,我们可以找到合适的方法,来完成人不同的任务。所以说通过ZeroAgent可以使用不同的智能体,让这些Agent可以完成各种各样的任务,形成一个群体智能的概念。而这个ZeroAgent就是第一个帮你和服务你的那个人,可能就是你的贾维斯,Samantha,李未可。


这次我们定义李未可的AI眼镜,首先它不仅仅可以做到更先进的去调用更多的Agent,同时我们希望李未可真的有用。


这次AI是一个大语言模型,它的第一个能力就是语言理解和跨语言的交流的能力。所以翻译其实是这一次AI进化的第一个最重要的基础功能,李未可将这个基础功能通过硬件落地到需要即时翻译的商旅场景,对于跨国贸易而言这个可能就是刚需。但刚需也意味着这它有非常高的要求,我们支持了一百多国的语言,需要即时且准确,可以满足商务的会谈,李未可和百度智能云一起深度优化了云链路,针对语种的识别、断句,在翻译链路上做了大量的工作,让它真正做到了可用,真正做到了信达雅。


让AI眼镜听得清、听得懂,翻译得准、翻译得快,AI眼镜这个时候就变成了你的耳朵和嘴巴,听懂全世界,从商业到文化,借助AI,未来人类会毫无障碍的去沟通和交流。所以除了听见李未可,AI眼镜还可以看见,看见菜单、看见文件,可以实现即时的翻译。


这个听得清和听得懂的功能对翻译很重要,同时对于记录也更加重要,它就是AI的大脑,AI大脑的耳朵,同时可以帮助我们随时记录,既然能听清楚我们就能记录,它就像你的贾维斯,李未可。通过这个模型的深度定制,我们可以让它翻译一百多种语言,也可以记录一百多种语言。所以未来的AI眼镜能够长时陪伴,也能够帮助人时刻记忆。


所以说AI眼镜就是AI大脑的一个感知系统,让AI可以听得见,可以看得见,可以更好理解这个世界,我们把这种感知进一步融合,除了听觉和视觉,再加入位置信息,李未可就可以带你游览讲解中国头部的一百家博物馆,一千八百个景区。今天李未可可以带你走遍中国,未来李未可可以带你环游世界。


当AI有了眼睛,我们做的事情可能就不仅仅是拍一张好照片,拍一段好视频,做一场直播,更可以把听见和看见的内容通过AI的能力再次生成出来优秀的内容,把这些记录、记忆再保存起来,做成更好的图片去珍藏,或者更好的视频,让你的记忆更加的丰富有趣。


基于百度智能云的千帆大模型平台,和百度强大的模型生态和技术服务能力,李未可实现了全场景的智能化体验,同时也重新定义了人和眼镜的人机交互的边界。


比如当我们了解到正在发生的热点事件时,只需要通过李未可眼镜提问,就可以获取所需的信息,这背后正是百度大模型强大的对话理解,它的MCP的搜索能力在发挥作用。


在商务交流的过程中,面对跨语言交流的挑战,李未可也能够轻松应对,通过百度翻译技术稳定加持,实现实时精准的语言转换,打破语言壁垒,提升沟通的效率,助力企业在全球化进程中可以从容应对各种复杂的环境。出门在外,李未可想要了解当地的热门景点,美食餐厅,也可以基于百度地图大模型的能力,智能推荐旅游的攻略,城市的必吃榜单等等,让探索变得非常简单、有趣!


当我们在旅途上看到了想要珍藏的风景,轻轻一句话开始拍照,李未可就可以为我们记录下这一刻。拍照之后还可以借助百度提供的AI绘画、AI视频生成的能力将它转化成不同的视频甚至艺术作品,我们可以看一下它惊艳的效果。李未可和百度智能云的合作不仅在智能技术上合作,在平台生态上也有深度的探索,在百度智能云平台上开发的agent都可以发布到李未可AI眼镜的agent store里边,我们也期待李未可和百度智能云平台能够给agent开发者提供更多硬件落地的方案。


感谢百度智能云平台,最后用一句百度的话结束我的演讲,“众里寻他千百度,AI正在未来可期处”,谢谢大家!


心影随形(逗逗游戏伙伴)创始人&CEO 刘斌新


大家好!我是Binson刘斌新,心影随形的创始人、CEO。


非常荣幸能来到百度智能云大会的现场,与各位相聚于此。重回百度,感觉特别亲切。我曾是这里的一员,在百度的岁月,也为我今天的创业打下了坚实的基础。


两年多前,我看到Transformer和ChatGPT的时候在想,我们做效率工具之外,还能为用户带来哪些其他的价值?现在,我们在做的「逗逗游戏伙伴」是一个可以陪你玩游戏、追剧,伴你生活的AI搭子,致力于用AI创造快乐!


为什么选择游戏作为AI陪伴的切入点?


首先,是真实的需求。


打游戏时,谁都遇到过卡关的时刻:Boss打不过、谜题解不开……过去我们只能切出去找攻略,而现在,AI可以在游戏内实时响应,随时做你的“即时军师”。


其次,游戏提供了一个高投入、高互动的虚拟环境。


在高沉浸的虚拟世界中,AI与玩家共同经历成长,更容易建立起信任与依赖。


更关键的是,游戏是一个情绪被放大的场域。


AI不止是助手,更是情绪伴侣:共享你的喜悦,也在低谷时随时回应。


“游戏最重要的不是多贵的设备,而是陪你一起玩的朋友。”


而AI,正是那个永远在线、永远懂你的终极玩伴。


为什么我们选择从年轻人开始切入?核心我们看到了三个洞察:


首先,他们是真正的“数字原住民”——从小生活在网络世界,虚拟与现实早已无缝融合。


其次,他们极度追求“精神共鸣”——渴望被深刻理解,想要基于兴趣的认同和社交。


同时,这一代人也经历着“孤独成长”——他们希望拥有那种随时随地、毫无压力的陪伴。


所以,我们不只是做一个AI,更是帮用户承载想象,成为知己。


我们打造原创虚拟IP,构建完整的世界观和情感联结;


联合百大UP主和虚拟主播,融入大家早已热爱和信任的圈层;


开放“人物工坊”,把创造理想伙伴的自由,彻底交给用户。


每一代人,都有属于自己时代的“哆啦A梦”。


而AI,正让这个梦想照进现实。


为此,我们希望打造的产品,是成为一种“无扰的陪伴”:需要时出现,不需要时安静存在,绝不抢夺你的注意力。


同时,它更要真正“懂你”——能准确理解你的情绪,感知你的状态,并给予像人一样的共情回应。


更重要的是,每一次互动都不是孤立的。你们共同经历的每一刻,都在让它更了解你,逐渐累积成独属于你们的回忆。


这正是我们想实现的:为每一位玩家,打造真正属于自己的Companion AI。


说了这么多,逗逗游戏伙伴究竟是一个怎样的产品?


接下来,让我们通过一段视频,直观感受一下。


通过视频可以看到,逗逗AI 1.0具备三大核心能力:看得见场景、听得懂情绪,并能记住你们的共同经历。


在视觉层面,我们基于自研VLM模型,实现对游戏等场景的实时、通用理解。就像AI伙伴亲临你的世界,真正与你“物理同频”。


在语音方面,支持实时双向语音交流,可自然打断、无缝对话,体验就像面对面聊天。


最核心的是多模态记忆系统。无论是游戏、看剧还是日常聊天,它都能记住并理解这些经历,逐渐与你实现“心灵同频”。


其实不难发现,我们的能力远不止于游戏。


我们以游戏为起点,借助游戏的沉浸场景破冰。


但陪伴不止于游戏——用户还可以带着AI伙伴一起看剧、学习、甚至购物,真正实现全方位的生活陪伴。


很荣幸,我们与百度智能云携手,基于千帆大模型平台和百度强大的AI算力基础设施,共同为“心影随形”注入了有趣亦有温度的AI灵魂,重塑了智能陪伴的体验。


在实时语音交互方面,依托百度智能云,我们实现了端到端响应延迟低于1.4秒,打断响应低于0.8秒。


超低时延配合精准的情绪感知,真正打破了人与AI之间的次元壁,创造了如同面对面般流畅自然的沟通体验。


依托百度搜索在准确性与时效性方面的核心优势,我们实现了游戏内实时攻略查询,玩家无需离开游戏界面,即可享受流畅、不间断的陪伴体验。


逗逗游戏伙伴1.0上线后的效果如何?


可以说,用户的涌入远远超出了我们的预期。


我们是8月18日正式发布的,上线当天就迎来大量用户涌入。原本我们做了五倍的扩容准备,结果远远不够——在百度智能云团队的协助下,快速实现了三次连贯的线上扩容,整体耗时不到10分钟,才扛住了一波又一波的流量高峰。


发布仅一周,新增用户接近百万。算上此前beta阶段积累的用户,当周我们的累计注册用户数已经突破900万。


这份热情,对我们既是认可,更是沉甸甸的责任、期待。我们会持续高速迭代,不断优化体验,全力回馈用户的信任。


One more thing,部分朋友可能知道我们此前在海外也进行了多轮的测试,接下来我们正式推出海外版的1.0,同时支持日文和英文,即将登陆北美和日本等地区,敬请期待!


未来,我们将继续携手百度智能云,服务全球更多玩家,一起用AI创造快乐!


感谢三位创始人!


非常高兴看到三位创始人带领团队开拓的新领域、创造的新价值, 也非常荣幸在这个过程中,我们的AI云基础设施能给大家提供支持、做好服务。


除了刚刚分享的三位客户,百度智能云还服务了超过65%的央企客户和超过46万家企业,打造了130万个Agents,推动AI深入产业,创造价值。



从十年前我们开始探索AI云的全栈布局,到今天见证整个AI产业生态的全面爆发,我们很高兴的看到,越来越多的同行开始加大智能投入,丰富了从底层基础设施、到大模型以及开发平台的选择;也看到,越来越多的客户和伙伴也逐步掌握了大模型,在应用落地上不断取得成功,打开了全新的市场机会。


未来,我们会持续、坚定地投入AI云基础设施建设,与客户和伙伴一起,深入产业,共创智能经济时代。让智能,生成无限可能!



谢谢大家!




点击下载
2025百度云智大会开幕式会议资料



图片


0元链接AI黄金人脉圈!2025百度云智大会专题论坛等你来!

  ▼  「点击原文,下载演讲资料」

【声明】内容源于网络
0
0
百度智能云服务号
百度智能云官方服务号
内容 102
粉丝 0
百度智能云服务号 百度智能云官方服务号
总阅读23
粉丝0
内容102