大数跨境
0
0

从“共识”到“非共识”,AGI之路有哪些未知性?蚂蚁技术日开放日他们这样说

从“共识”到“非共识”,AGI之路有哪些未知性?蚂蚁技术日开放日他们这样说 蚂蚁技术AntTech
2025-05-30
2
导读:技术创变未来


通向AGI的道路充满未知。大模型预训练要结束了吗?下一代非 Transformer 模型架构是什么,多模态大模型的未来将如何演进,具身大模型如何让机器人走向通用智能,世界模型才是AGI的未来吗?


5月27日,在蚂蚁集团的第十个技术开放日上,来自产学研界的资深AI从业者及顶尖专家,与蚂蚁AGI技术专家齐聚蚂蚁A空间,大家针对近年以来业界关心的AGI话题,进行了深度碰撞,聊得火热。


我们摘取了一些与会嘉宾的观察和思考,希望能为关注AGI的同行者们,提供一些新的视角。


1

多模态未来会走向哪里

有哪些技术挑战等待我们解决?


阿里巴巴集团副总裁许主洪详细介绍了多模态大模型的定义、技术方向,以及未来的演进趋势和行业面临的挑战。


阿里巴巴集团副总裁许主洪


他指出,多模态大模型能处理文本、图像、语音、视频等多模态数据,可提升模型性能、准确率,降低幻觉,带来更自然的人机交互体验,拓展更多落地场景,是实现通用人工智能(AGI)的关键。多模态大模型基于预训练技术,行业已研发了CLIP、BLIP、BLIP-2、Flamingo和LLaVA等模型,并不断优化多模态对齐和融合方式。其中,全模态模型(Omni-LLM)可处理更多模态,实现人机交互实时双工性能,但技术尚未成熟。


许主洪提到,目前多模态大模型主要分为多模态理解任务和多模态生成任务两类。在多模态理解任务方面,早期有基于双 Encoder 架构的 CLIP,后来出现了融合不同模态信息的 BLIP 及其改进版 BLIP-2,还有谷歌的 Flamingo 和主流的 LLaVA 等,目前主流的多模态生成模型则主要是基于扩散模型 。


关于未来多模态大模型演进趋势,许主洪指出,当前行业探索方向包括同时处理理解与生成任务的统一多模态大模型、多模态推理模型,以及多模态智能体等。其中,统一多模态大模型是当前行业热门方向,旨在设计一个同时处理理解与生成任务的框架,后续可能会结合自回归模型和扩散模型。多模态推理模型通过强化学习和长思维链提升推理能力,处于早期探索阶段。多模态智能体是研究热点,可识别多模态信息并完成任务操作。GUI智能体和具身智能体概念备受关注,但行业处于早期阶段,需更多迭代。


“我们现在看到了多模态大模型的一些进步,但是要真正设计一个通用的人工智能技术,还有很多的技术模块需要提升,包括最底层的多模态模型的能力,智能体模块的设计,以及数字世界的交互,物理世界的控制,都是非常有挑战的问题,但这些也是技术的机会,希望未来在这方面有更多的探索。”许主洪在演讲最后对多模态大模型的前景寄予了期待。


2

具身大模型会将机器人

带入通用智能新时代吗?


智平方创始人兼CEO郭彦东详细阐述了具身大模型技术,以及智平方在该领域的创新实践。


智平方创始人兼CEO郭彦东


他指出,具身大模型(如VLA)是机器人行业的革命性技术,它使机器人能够理解环境和人类指令,并在物理世界中完成复杂任务。VLA模型的输入是人类文本指令和环境信息,通过对信息的编码深刻理解环境和指令,并利用预训练技术积累常识,输出则是机器人动作的编码信息,实现端到端的数据驱动,让机器人越用越聪明。VLA模型在机器人行业具有巨大潜力,尽管目前存在感知能力不足、控制不够丝滑等问题,但通过技术改进,如提升空间感知能力、优化动作生成机制以及引入快慢系统以实现长程推理和快速响应,VLA模型将得到不断迭代。


那么具身大模型能够为通用智能带来哪些突破?智平方提出了GO-VLA模型,结合空间智能和快慢系统,使机器人能够在开放环境中实现全身丝滑控制,从桌面操作到开放环境任务,从机械臂控制到全身控制,从简单指令到长程任务,展现了广泛的应用前景。硬件形态上,智平方提出了轮式双臂的AlphaBot2平台,在汽车、半导体等先进制造场景以及机场等公共场景提供服务。


郭彦东总结了智平方具身机器人的发展的三个核心的阶段:第一阶段是技术突破,通过持续提出VLA创新方法,让技术获得领先;第二阶段是系统驱动,以搜索引擎级别的数据平台、高效迭代的模型训练平台以及准量产的硬件平台支撑产业级的技术产品革新以及商业化拓展。第三阶段是生态闭环阶段,通过上述三大系统级平台支撑,加上客户、场景以及机器人应用,获得海量的数据闭环,这是最核心的商业壁垒。这也是具身智能发展,尤其是具身智能公司所要聚焦的三个最核心的阶段。


3

什么是世界模型

世界模型和机器人结合会带来哪些机会?


星尘智能(深圳)有限公司CEO来杰


星尘智能(深圳)有限公司CEO来杰,从行业参与者的视角,介绍了世界模型的发展历程和由来,并且对世界模型和机器人的结合充满期待。


世界模型是个非常宏观、非常大的领域。来杰阐述,1943年心理学提出心智模型,强调对世界的符号化和简化。而人类想要建造的世界模型是在人类所有的感官和知识的基础上,来理解周围的世界,和世界产生互动,这是世界模型完整的一个概念。到2018年,计算机科学开始研究世界模型,关注其需要储备的知识和能力,开始真正以世界模型或者以世界模型为愿景进行大型的研究课题,包括世界模型需要储备什么样的知识,用什么样的能力,才有可能做得出来。2022年,Yann LeCun的论文强调世界模型需要与世界不断交互并验证预测,指出机器人在这一过程中的关键作用。“这篇文章带给我的冲击点是,人类需要一个机器人。”


来杰分析,世界模型是基于人类感官和知识构建的,旨在理解世界并与之互动的模型。它与心智模型紧密相关,强调符号化、推理预测和自学习。但问题点是,现在所有的大模型对于世界来说的,都是人类给它提供了数据,然后人类来判断结果,它没有办法完成闭环。“我们训练模型,经常说开环训练,最后闭环测试。对于世界模型来说,我们没有一套完整的架构,使得大模型开环训练人类给反馈,如何能让它在真正的世界中进行闭环的测试值得研究。”


因此,来杰认为机器人和世界模型需要共同完成的任务是:机器人根据世界模型的指导与世界进行交互,通过尝试获取数据并反馈给世界模型,帮助其进化。机器人要实现从被动适应到主动改造环境的转变。来杰还提到了机器人需要补全的能力:首先,具备第三视角的想象力,理解被遮挡物体的存在;其次,掌握物体概念,关联操作物体时的力学信息和物体属性,如重量、硬度等;再次,理解约束信息,即物理定律对物体的约束,以提高泛化能力;此外,机器人需要依赖世界模型来获取其自身缺乏的常识性信息;最后,机器人需要具备推理预测能力,仿真环境和真实场景相结合,使得机器人具备面对不确定的能力。


4

现有的Transformer架构为什么能成功?

未来模型架构有哪些可能?


谈到现有Transformer架构为什么会成功,以及还有哪些发展空间时,香港大学(HKU)计算机科学系助理教授,HKU NLP Lab联合主任孔令鹏认为,Transformer之所以能够成功,最主要是因为它比之前的LSTM、RNN、CNN等架构都更为通用,这也是为什么语言、图像以及此前提到的VLA都可以基于Transformer架构来构建。另外,在模型可解释性和幻觉问题上,不应简单归咎于Transformer。我们可以通过多种方法解决,比如Graph Neural Network 与 Transformer相结合。当谈及模型的智能拓展以及创作能力时,孔令鹏认为,模型的创造能力仍然是一个搜索问题,例如20个词创造一句话,当你有1000个词,就看是否能找到这20个词的组合。当把创造理解成一个搜索问题,它很可能在将来被解决。

香港大学(HKU)计算机科学系助理教授,HKU NLP Lab联合主任孔令鹏


在谈及未来模型架构有哪些可能时,Sand.ai创始人、前光年之外联合创始人曹越认为,在深度学习发展早期,由于算力不足,加入Bias会带来显著但短期的性能收益。但随着算力增加,我们将有机会重新审视过去的假设和技术,探索新的可能性,“如果现在把十年前不work的想法再翻出来做一做,也许会有惊喜。”此外,一个比较容易被忽略的维度是各种“Co-design”,现在大家关注比较多的"Co-design"可能是模型和框架层面的,尽管网络架构在不断进步,但现在模型的优化算法整体和十年前相比并没有本质区别,我们可以思考的是,如何设计更匹配现有网络结构的优化算法,从而实现有趣的联动。 

Sand.AI创始人,前光年之外联合创始人曹越


关于行业认为“Transformer 已经遇到瓶颈”的观点,阿里通义千问算法负责人林俊旸对此保留疑问。“去年行业说‘预训练要结束了’,是共识。今年大家追求非共识,现在新的非共识是,更大的参数、更多的数据,仍然能带来持续的性能提升,Scaling Law仍然没见顶。”从千问的经验来看,预训练仍大有可为,不管是训练数据的增加,还是参数规模的扩大,都还能看到模型性能的提升,因此仍然对未来充满信心,相信模型够 Scale 上去。

阿里通义千问算法负责人林俊旸


对于当前出现的模型架构优化路线议题,嘉宾们也分享了各自的探索。 对于基于Diffusion扩散架构来做语言模型,孔令鹏提到, Auto Regressive(AR,即自回归) 模型适用于从左往右的顺序做预测,例语言、数学问题等。但也有一些问题不需要从左向右做预测,这样的情况下可以减少假设,让模型接管更多东西,这便是用 Diffusion 架构做语言模型的一个基础信念。业内都在探索一个与数据偏差相符合的模型架构,不管是用 Diffusion 做语言模型,还是用 AR 做视频模型,都是一种有益的探索,并不矛盾。


关于下一代的模型架构,曹越回顾了其早期做Swin Transformer时的研究经历。当时,团队对Transformer加入了Locality的先验,但最后发现这类先验有可能会影响模型效果的天花板。而新型注意力技术,比如线性注意力(Linear Attention)、稀疏注意力(Sparse Attention)在多模态领域是一个很有价值的探索方向。与语言模态相比,图像/视频数据的Token数量更大、并且更为异构,因此在多模态模型中进行注意力方法的探索,有望显著提升跨模态融合的效率。

近期Sand.ai也发布了首个基于自回归(Autoregressive,AR)架构的视频生成模型Magi-1。谈及背后的思考,曹越提到,传统基于DiT架构的视频生成模型,很难捕捉到视频中时间维度的因果关系,因此团队希望设计一种能够编码时间因果关系的训练方式,从而更大程度压缩视频信息,提高视频生成模型的天花板。当然这种架构面临异构数据处理、数据Token数量极大等问题,因此团队在框架层面做了非常多的优化,提出了MagiAttention,以更好利用GPU资源,从而高效地训练出能够处理异构且超长上下文数据的视频模型。


针对模型优化的问题,林俊旸笑称“这个东西有一点点玄学的”。在商业公司做模型,效果和效率全都要,当然这个过程也不乏有价值的探索,包括MoE(Mixture of Experts)架构,线性注意力(Linear Attention)以及稀疏注意力(Sparse Attention)等。其中,线性注意力(Linear Attention),目前看起来是实现无限长上下文很有潜力的方向。另外,Diffusion LLM是另一个有潜力的方向,但其通用文本理解能力仍有较大提升空间。林俊旸提到,做模型要从端到端去看,之前是流程化的,做一个新架构,然后预训练觉得指标不错就去推,但最后发现强化学习效果很差,这个就会带来很多痛苦。还有一点他也提到了优化,比Linear Attention、稀疏注意力机制探索等,以及新架构也看Diffusion。当被问到强化学习是否会加强模型幻觉时,林俊旸坦言确实对于思考(Thinking)过程中的幻觉确实无法控制,目前的解决方向,一方面是通过强化学习的方法,防止模型过度思考(Overthinking),另一方面针对模型幻觉和可解释性问题,也在做SAE相关研究,找到和问题相关的特征,再看怎么解决它。


蚂蚁百灵大模型负责人周俊介绍,蚂蚁很早做了MoE的探索,认为MoE是比较好的架构,跟很多公司一样,当时也是两条腿一直在走。“因为它的效率优势和成本优势比较大,我们坚定地在语言大模型和多模态大模型上面统一使用了MoE的架构。”对于MoE(Mixture of Experts)架构的设计,关键在于如何优化其结构,使其在保持稀疏性的同时,实现比传统稠密模型更高的杠杆效应,这是蚂蚁研究的重点方向。同时,蚂蚁也关注算法和工程以及数据,如何以系统工程的方式联动,这是目前为止会比较关心的事情。就像打好双11的仗,AI的仗会持续更长,周俊表示,要把算法、数据、算力等每一块基础设施都练起来。此前,蚂蚁也联合人大高瓴发布了基于扩散架构的语言模型,作为对模型架构的一种探索。

蚂蚁百灵大模型负责人 周俊


在展望下一代模型架构时,孔令鹏认为,我们没有办法真正去预测未来,但要保持开放的心态,对一开始并不强大的东西抱有信心。最后,他分享到“预测未来也许没有那么大的指导意义,尽量不要去犯错,犯错了之后修正错误。然后回过头来看看是否有进步,这可能是不那么焦虑的态度。”


林俊旸认为,未来仍有很多变化,我们需要想得更深入。比如GPU并非最适合训练Transformer,因此中国公司还是有机会去探索更优的软硬一体方案。


周俊则表示,做物理学的人希望有大一统的东西,对于很多做技术的人来说,也希望有一个大一统,基本的结论是,越简洁的东西越美。“我们一直想,有没有一种方法可以把多模态繁琐的过程用一个比较简单的形式表达出来,就像语言模型的Transformer,看起来是比较优美的表达。”周俊表示,我们初心比较简单,就是“最好的AGI就是最好的产品”。很多用户选择一款AGI产品,理由正是模型的智能上限比较高。蚂蚁从去年年底开始,把追逐更好的智能能力作为我们的目标,这也是蚂蚁AGI开源很大的初衷。


本次蚂蚁技术开放日上,嘉宾们围绕大模型在垂直领域的应用技术也展开了讨论。蚂蚁数字医疗健康AI技术负责人魏鹏介绍,去年9月蚂蚁发布了AI健康管家,运行9个月以来,收获了很多AI在严肃场景应用的实战经验。


他介绍,医疗AI在应用中面临着严肃性、专业性、复杂性、个性化四个比较大的挑战。为了应对这些挑战,蚂蚁医疗AI首先从数据出发,除了公开数据,蚂蚁还跟权威的机构进行了知识采购合作,同时组建了专业的医学标注团队,对专业数据进行了增强、清洗、合成等,让大模型更好地理解数据。在训练方法上,蚂蚁医疗AI团队采取开放的态度,针对不同模型擅长点,选择不同模型类型,并进一步通过课程学习等增强模型在垂直领域的专业能力。在专业推理层面,通过Role—play的方式,加上专家多层的评测,模拟医生病人交互的方式不断构造数据,从而实现问诊的全面性。蚂蚁医疗AI团队还创新性研发了GRAO,把SFT和RL的过程融合在同一个过程里,当RL探索不到正确答案的时候,可以适当地引入SFT,然后再用RL,极大提升了训练效率。


蚂蚁AI健康管家中的多报告解读和医生智能体,都是重要的工作。在多报告解读这项任务中,在VQA的过程中,模型能够自动地聚焦到包含关键信息的图片,然后在图片上进行Token增强,部分非关键的图片会自动丢弃或者进行Token的丢弃、图片的丢弃,整个方法可以无缝适配到千问VL等开源的模型上。实验下来,在多图识别的评测上,蚂蚁是显著高于开源的模型。医生智能体方面,蚂蚁专门训练了一个端到端的一个模型,能够更好地检索正确的医学相关论文和专业的报告。这项能力将会运用到即将发布的院士智能体上,为他们提供一些前沿报告解读的能力。


安全方面,在遵守法律法规基础上,蚂蚁医疗AI跟一些专家合作,并收集用户反馈,同时从医疗安全、通用安全、医学专业性、医疗伦理和医疗合规五大维度做评测,跟卫健委组成专家团进行定期的评测,以保证医疗大模型输出结果符合医疗和伦理,以及合规性。同时在内生安全方面,通过检索更加专业的知识库,对药品、教科书等信息都做专业性的筛选,以及通过SFT和对齐跟专业专家不断地对齐,保证模型输出结果的安全性。


【声明】内容源于网络
0
0
蚂蚁技术AntTech
科技是蚂蚁创造未来的核心动力
内容 1081
粉丝 0
蚂蚁技术AntTech 科技是蚂蚁创造未来的核心动力
总阅读197
粉丝0
内容1.1k