SIICFM Insights |【智能科技月报】WAIC 2024:AI奇点临近，大咖观点针锋相对（2024年7月，第59期）- 大数跨境

首页

SIICFM Insights |【智能科技月报】WAIC 2024:AI奇点临近，大咖观点针锋相对（2024年7月，第59期）

上实资本科技基金

2024-07-12

概述

短短10天内，上海连续举办两个全球性重要展会——世界移动通信大会（MWCS2024）和世界人工智能大会（WAIC2024），AI在魔都掀起一阵科技“飓风”。

本届世界人工智能大会（WAIC 2024）有望成为有史以来最年轻的一次展会。为期3天的展会期间，虽然华为、阿里云和腾讯、百度等大厂在展会期间占据了最大的论坛和展会场地，但在声量和关注度上，AI新势力们吸引了更多关注。根据官方公布的信息，截至7月6日下午14时，本次人工智能大会线下参观人数突破30万人次。

冯·诺伊曼说：“技术的不断加速进步，将会引发人类历史上某个关键的奇点。”从2018年首届世界人工智能大会拂晓初现的“人工智能新纪元”曙光，到如今第七届WAIC的召开，我们已然伫立在奇点的门槛之上，比以往任何时候都更贴近那个改写历史的瞬间，但是路径的选择依然没有共识，开源还是闭源，关注应用层价值还是DAU，云端还是终端，先解决大模型的准确率问题还是多模态输入问题，大咖的观点针锋相对，这些问题让时间带给我们答案。

目录

一、从WAIC2024看人工智能三大趋势：智能体、具身智能、算力风暴

二、“AI for Science: 十问”论坛圆满举行

三、六问世界人工智能大会

四、WAIC2024场内场外的AI辩论“修罗场”

注：本文仅提供观点概述，原文请点击链接跳转查看。

一、从WAIC2024看人工智能三大趋势：智能体、具身智能、算力风暴

趋势一：“百模大战”第二幕——大模型应用元年开卷AI Agent

今年的WAIC中，各大公司纷纷展示了自己的大模型产品。中国电信的“星辰”、阿里的“通义”、百度的“文心”等大模型在展会上亮相，显示了AI技术的快速发展和广泛应用。AI Agent的崛起成为焦点，支付宝的智能助理基于蚂蚁集团的百灵大模型研发。用户只需在支付宝首页下拉便可唤醒这位小助手，小助手将提供出行、健康、政务、金融等领域的8000多项服务。阿里云的“通义for everyone”整合了通义大模型的全栈能力，形成了全能AI助手。腾讯在展会上展示了“腾讯元器”，用户可以自由创建或选择AI Agent，满足不同场景的需求。AI Agent作为大模型的重要应用，强调服务的协同性和对自然语言的认知，能够自主理解、感知、规划、记忆和使用工具，自动化执行复杂任务。

比尔·盖茨早在1995年的《未来之路》中就描述了AI Agent的概念，认为它将彻底颠覆人与机器的交互方式。未来，智能手机上都会有一个AI Agent，帮助用户完成各种任务。蚂蚁集团董事长兼CEO井贤栋也在WAIC上表示，AI Agent将成为新的应用范式，为用户带来服务代际的升级。

正如腾讯云副总裁、腾讯优图实验室负责人吴运声所言：“应用将是未来大模型竞争的主战场。”当前，几乎所有大模型厂商都在智能体领域进行技术探索，注重模型的落地与实用性。大模型的研发与应用必须专注于解决具体业务场景的问题，重视可用性和性价比。

趋势二：具身智能扎堆繁荣——人形机器人进入商用前期

今年的WAIC展出了大量具身智能机器人，人形机器人成为亮点。上海人形机器人公司展示了“青龙”，身高185cm，体重80kg，具有高灵敏度的肢体动作。开普勒公司的通用人形机器人，身高175cm，体重70kg，具有复杂地形行走和智能规避障碍等功能。此外，主办方精心呈现了"十八金刚人形机器人先锋阵列"，堪称本届大会的镇馆之宝。这一展览汇聚了中电科、复旦大学、达闼、傅利叶、钛虎、星动纪元、卓益得、开普勒、宇树等18家国内机器人领域的领军企业。人工智能实验室构建了“浦源·桃源”机器人训练场，解决了数据匮乏和评测困难的问题，实现了大模型驱动的无人机、机械臂、机器狗的协同。

据主办方统计，本届WAIC大会共展出了超过25款人形机器人产品。这一数字不仅体现了中国在人形机器人领域的研发实力，也彰显了WAIC大会作为全球AI领域顶级盛会的影响力和号召力。

尽管完美匹配智能本体的世界模型还未出现，但具身智能近两年的发展已超出预期。特斯拉CEO马斯克表示，特斯拉将于2025年开始“限量生产”人形机器人Optimus，达闼公司也在预售具身智能人形机器人XR4。宇树科技CEO王兴兴认为，全球范围内最快在明年年底之前将出现比人跑得快的人形机器人。许彬乐观地预测，未来3-5年内，人形机器人可以在工厂智能制造产线运行，5-10年内可以在家庭服务等场景中应用。

趋势三：多路径破局“铁幕”——国产算力“春意浮动”

算力需求激增和美国对华断供英伟达高端芯片的影响，使得算力芯片成为焦点。新型异构算力架构也在尝试解决算力规模化难题。摩尔线程公司推出了夸娥（KUAE）智算集群解决方案，支持万卡规模、具备万P级浮点运算能力，为大模型训练提供平台。无问芯穹推出的千卡规模异构芯片混训平台，采用“MxN”方案，M层是大模型，N层是各种国内外芯片，可以通过算子优化、自动编译、不同芯片耦合等技术一键部署模型，支持Qwen系列等20多个模型，在AMD、NVIDIA等六种异构芯片上混合训练，算力利用率最高达97.6%。

截至目前，至少已有两家国产芯片厂商实现了单池万卡集群的能力，为我国自主可控的AI大模型攻坚建立了关键基础设施。受限于芯片禁令，国内在单池超大规模集群建设上面临困境，只有几个互联网大厂和电信运营商有芯片储备和技术能力，而根据大模型的Scaling Law（尺度定律），至少在现有路径上，更多的算力才能造就更多的智能涌现。

多路径破局“铁幕”的尝试，让国产算力和国产大模型的春天悄然而至。

点击这里阅读原文

从WAIC2024看人工智能三大趋势：智能体、具身智能、算力风暴

二、 “AI for Science: 十问”论坛圆满举行

一问：智能有哪些形式？

诺贝尔奖得主、斯坦福大学终身教授及美国国家科学院院士Michael Levitt（迈克尔·莱维特）认为，地球上存在三种不同但密切相关的智能：生物智能、人类智能以及人工智能。生物智能是指动物通过进化获得的本能和适应环境的能力；人类智能不仅包括逻辑思考、情感表达，还包括艺术创造和复杂决策能力；机器智能则是通过算法和数据处理来模拟和扩展人类智能的一种形式。其中，生物智能和人类智能为人工智能提供灵感，人工智能的进步为生物和人类发展提供了更多可能性。

二问：以生物医药领域为例，AI所带来的进步着力点究竟在哪里？

复旦大学复杂体系多尺度研究院院长、上海AI实验室教授马剑鹏指出，当前AI在生物医药领域主要有三个主要着力点，分别为静态蛋白结构预测，静态蛋白结构实验测定以及动态蛋白结构模拟。AI技术可以通过分析大量的生物数据，迅速找到潜在的药物靶点，并预测药物与靶点的结合方式，极大提高新药开发的效率和成功率。

三问：AI如何推动分子设计和制造工业化？

中国科学院院士、北京大学讲席教授鄂维南认为，当前分子设计正面临碎片化、多环节和数据稀缺等挑战，为此提出了分子基座模型Uni-Mol作为全流程解决方案，同时呼吁全行业应推动数据共享开放，以应对共同挑战。

四问：AGI能否具备科研能力？

中国科学技术大学教授江俊认为，尽管AI在某些领域展现出非凡能力，但在实现完全自主科研能力方面仍有许多问题需要探索。在未来，AGI应是科学家们强大的合作伙伴，通过处理庞大的数据、提供智能化的分析和模拟，AGI能帮助科学家们更快速地发现规律和解决问题。

五问：人工智能可以在地球科学领域发挥什么样的作用？

上海AI实验室青年科学家白磊介绍了人工智能技术在大气海洋科学领域的研究应用：“不同于自然语言和计算机视觉数据，地球科学数据具有来源复杂、模态多样、时空耦合、时空分布不完善等特性，人工智能算法可以帮助构造更完善的地球科学数据、产生更准确的地球系统预测、和实现更友好的地球科学应用。”

白磊认为，在未来，AI算法可以支持应对极端天气和气候变化。

六问：如何让机器具备空间乃至地球空间的思维能力？

对此，联合国全球地理信息知识与创新中心主任李朋德在他的一次演讲中提出，加速数据科学和大数据技术创新融合，推进地球空间数据、模型和算法开源共享，促进地球空间社区发展，共同推动地球空间研究迈向智能时代。

七问：大模型能够在高端制造中扮演什么样的角色？

中国工程院院士、中国商飞首席科学家、C919总设计吴光辉认为，由大模型驱动的智能体在高端制造中通过与设计人员的协同工作，共生进化，可显著缩短工业设计周期，创新工业设计思路，为下一代工业设计范式提供新选择。

八问：如何将科学智能转化为新质生产力？

爱思唯尔全球高级副总裁兼大中华区总裁李琳、上海医药集团股份有限公司中央研究院副院长夏广新、上海交通大学人工智能学院教授、上海AI实验室教授张娅、崖州湾实验室青年科学家杨帆及上海AI实验室的青年科学家白磊，以圆桌讨论形式，分享了各自对于科学智能在推动经济和社会发展方面的作用。

专家们在圆桌讨论中认为，科学智能的研究成果通过转化应用，可以成为新质生产力的核心驱动力。AI在新药研发、育种和气象等领域的应用正在不断推进，为经济和社会发展提供新的动力。

九问：AI for Science对新一代科学知识基础设施提出了什么样的新要求？

李琳认为，科学知识从生产、传播再到应用，均发生了非常大的改变，新一代科学知识基础设施面临巨大挑战。新一代科学知识基础设施需要支持科学知识的快速产生与验证，覆盖科学数据收集、聚合和连接，以及科学数据的开放和共享。同时，新一代科学知识基础设施也需要支持产业的应用，为整个产业生态系统提供源源不断的动力。

关于AI for Science所面临的具体科学问题特性，杨帆提出应聚焦数据、算力、模型规划科学基础设施，以农业领域为例，一方面设计全国范围内数据的采集标准；二是依赖新型设施，收集相对结构化的数据；三是实现算力的全国性分布，以便需要时在边缘端进行实时计算，使得模型具有全国范围内的普适性。

十问：有没有全新的科学因为AI和科学的结合而涌现？

圆桌讨论嘉宾一致认为，AI和科学的结合将带来全新科学领域的涌现。张娅提到“脑机接口”等新领域，李琳相信AI带来的多模态感知和觉察会帮助人类更深刻地理解世界，杨帆认为AI将促进学科交叉融合，产生重要的新学科。

点击这里阅读原文

回应科学智能十大问题，见证浦科创新平台发布，“AI for Science: 十问”论坛圆满举行 | WAIC 2024

三、6问世界人工智能大会

1.算力问题是个伪命题吗？

高通中国区董事长孟樸在WAIC 2024上强调，强化端侧算力以推动AI的深层次应用。他建议将20%的生成式AI工作负载转移到终端侧，预计到2028年将节省160亿美元的计算资源成本。孟樸认为，为了推动深层次AI的广泛应用，需要将其能力延伸到日常使用的智能设备上。高通倡导在终端侧开发更高性能的AI处理器，并优化生成式AI模型，使其体量更小、效率更高。他表示，随着小型生成式AI模型质量的提高，市场最终能够在终端设备上运行与云端大模型相当、甚至更好的AI模型。目前，高通已推出第三代骁龙8移动平台，最高可以支持100亿参数的生成式AI模型。

与高通的观点不同，华为常务董事、华为云首席执行官张平安则强调云端计算在大模型时代的重要性。他认为不能把人工智能基础设施放在对最先进制程AI芯片的依赖上，端侧算力受限，就应该把端侧的算力需求释放到云端。张平安指出，中国公司在云端拥有更强的5G网络优势，通过网络的上行和下载效率解决端侧算力问题。他举例说，目前华为终端设备的很多任务都在云端完成，如云办公、云拍照、云手机、云游戏和云设计。华为专门派了很多项目组思考如何把端侧算力需求放在云端解决，从而保持端侧功能的丰富性，又降低功耗和对芯片的依赖。

阿里云创始人王坚自称「一个无药可救的技术乐观主义者」，他在发言中认为算力问题是个伪命题。王坚指出，当前很多人说中国公司的算力是个问题，但他认为这是个伪命题，因为与现有的基础模型相比，应用做得不够好；与现有的算力相比，基础模型做得不够好；与现有的电力相比，算力还不够。因此，他认为能源不是做人工智能要担心的问题，而是基础设施要担心的问题。王坚相信新的能源和新的算力形式会不断涌现，所有问题都会在动态过程中解决。

2.大模型的准确率到底是不是问题？

MiniMax创始人兼CEO闫俊杰在讨论中提出，大模型目前最核心的问题是模型错误率较高。例如，GPT-4在很多测试指标上可能正确率只有60%到70%，这意味着有30%到40%的错误率。大模型的产品多采取对话形式，是因为对话的容错率较高。闫俊杰认为，降低大模型的错误率，使其从30%至40%降到3%至4%、甚至2%，是让AI从辅助人类的工具到独立完成工作的最核心标志。这需要综合性的解决方案，包括合成数据、提高训练效率、研究新型网络结构、新算法和更好的对齐技术，所有这些技术加在一起，或许能够让业界在半年或一年之后获得一个错误率个位数的模型。

与闫俊杰的观点不同，智谱AI CEO张鹏认为急需解决的问题不是大模型的准确率，而是多模态输入。他以上一代AI——人脸识别为例，表示其在准确率指标上已经超过人类水平，但大家仍然觉得那不是人工智能的终级答案。张鹏指出，未来大模型需要更像人，首先在信息输入方式上更像人。人在现实世界中解决问题所需的输入是多模态信息，包括自然语言、视觉、听觉和触觉，因此突破大模型应用瓶颈在于先解决多模态问题。他举例说，用户希望大模型帮忙扫地、做饭、洗衣服，这些任务所需输入的信息都应该是多模态的，这些方面的能力突破会带来AI的普惠。

3.自动驾驶中端到端方案进展到哪一步了？

在「智能驾驶前沿洞见」圆桌对话环节，光轮智能创始人兼CEO谢晨表示，汽车公司应该完全拥抱，且一定要最激进地去做端到端，如果一个公司没有做端到端的能力，我认为它不应该存在，它很有可能会被淘汰。谢晨认为，从产品体验角度来看，端到端最关键的点不是安全性，而是它更加像人，这是商业化必经的一个点。端到端技术符合scaling law（规模定律），这是自动驾驶系统通过一个独立的神经网络去学习驾驶环境并自主做出决策的重要步骤。

然而，同济大学汽车学院教授朱西产则持不同意见，他认为任何时候都要可解释。端到端模型面临着不可解释性的问题，但谢晨认为，人做很多事情也很难完全推理出来，讨论不可解释性更多是因为人类对AI的不信任，特别信任AI以后，可解释性就不再是个问题。圆桌中得到一致认同的观点是端到端模型的验证是现阶段的关键问题。特斯拉使用里程覆盖这一指标反映智驾能力，但圆桌嘉宾认为，单纯地看里程覆盖并不合理，因为光说里程不看场景是没有用的。

4.视频生成的内容平台机会是新创公司的，还是老平台的？

在整个WAIC大会期间，有关视频生成的话题在多个分会场中都是话题中心。五源资本副总裁石允丰在论坛中指出，视频生成技术在过去一年有了很大变化，最初，他认为这一技术可能带来移动互联网时代抖音、快手之后的下一个大流量平台，但现在他认为视频生成技术更大的机会可能在实体世界的应用，如机器人和自动驾驶，这些领域如果能持续预测并建立物理世界的小模型，将解决许多难题。他发现，视频生成内容目前在公共领域中的消费价值还很低。

Haiper AI联合创始人兼CEO缪亦舒同样强调了视频生成对于AI学习价值的重要性。他认为，视频生成不仅仅是技术问题，还涉及到感知和理解世界的方式。缪亦舒指出，人类学习是多模态的，包括视觉、听觉、阅读和动觉，而视频生成技术是模拟这种多模态学习的一种方式。多模态的输入和学习可以让AI学会更多东西，因为人就是这么学习的，而不是只学习语言或任何一种单一模态。

5.人形机器人的ChatGPT时刻何时到来？

星动纪元创始人陈建宇在演讲中提出，人形机器人需要实现大小脑融合的端到端架构。他认为，一个大小脑融合的端到端架构更有价值，因为他们最近发现，在一个很大的模型上面，如果想把物理层面的数据反馈给大语言模型效果并不好。陈建宇还提到了英伟达提出的RLPF（基于物理世界反馈的强化学习）概念，区别于RLHF（基于人类反馈的强化学习）的语言模型，这是一个很有意思的问题。

银河通用联合实验室主任王鹤则关注人形机器人小脑部分的数据获得。他们发现，现有的很多操作能力都是靠遥操来实现的而非通过自主学习。过去一年，银河通用在合成数据方面投入了不少精力，他们用10亿合成数据训练出来的抓取技能成功地在透明、金属高反光、各种柔性、刚性的物体中泛化。王鹤认为，中国公司在人形机器人方面与美国的差距不会太大，因为「具身智能=机器人+AI」，美国AI强，但机器人更强调供应链，中国在机器人的供应链上更强，软件出来后，很快就能将软硬件结合做出来

6.大厂在WAIC发布了啥？

在WAIC 2024期间，快手发布了视频生成模型可灵和图像生成模型可图的更新。可灵网页端正式上线，新增首尾帧控制、镜头控制等功能，目前单次文生视频的时长增加至10秒。此外，快手宣布图像生成模型可图将正式开源。可灵于今年6月6日上线，是快手自研的视频生成大模型，也是目前国内第一个已上市的类Sora视频生成模型，目前用户可以通过快手旗下的创作工具「快影」App测试。

商汤科技在WAIC 2024上宣布「日日新5.5」体系升级，发布对标GPT-4o的「日日新5o」。GPT-4o是OpenAI近年5月发布的多模态模型，可以看用户所看、听用户所听并能与用户实时就所看所听内容交流。在现场演示环节，「日日新5o」展示了其识别能力，包括识别毛绒玩偶的外表和穿戴，并给出解读。

阿里达摩院在WAIC 2024的论坛活动上发布了一站式视频创作平台「寻光」。寻光是一个针对视频创作者推出的工具性平台，产品目标是创造AI时代的全新视频工作流。寻光将AI能力加入视频创作的全流程，从剧本创作、分镜设计到视频素材编辑，创作者都可在该平台完成，目前该平台处于内测阶段。

面壁智能在阿里云的论坛上发布了端侧AI应用开发平台Mobile CPM。开发者可以通过这一平台提供的SDK套件「一键开发基于端侧大模型的App」，面壁智能首席科学家刘知远表示，该平台接入了「非常多端侧通用模型」。面壁智能计划在2026年年底推出GPT-4水平的端侧模型，届时端侧模型和云端模型的工作划分将更加清晰。

点击这里阅读原文

6问世界人工智能大会｜WAIC现场

四、WAIC2024场内场外的AI辩论“修罗场”

在刚刚闭幕的2024WAIC上，除了“十八金刚”人形机器人集体出道，“百模大战”热度不减，还有业界人士围绕大模型和应用两个话题进行观点碰撞。

辩论问题一：大模型——开源智商税 vs 闭源终被追上

关于大模型的开源与闭源之争，正反双方的观点截然不同。开源派代表马斯克认为，AI大模型共享代码是技术发展的前提，不但可以促进技术的进步和透明度，还能防止AI被少部分人垄断。他主张开源能够加速创新，吸引广泛的贡献者，共享知识和资源，使技术更为开放。阿里云CTO周靖人支持这一观点，认为通义千问的开源实践拉平了开源和闭源模型之间的差距。360创始人周鸿祎和金沙江创投主管合伙人朱啸虎也指出，开源社区拥有的工程师和科学家规模远超闭源机构，通过利用独有的数据资源，开源模型可以在特定领域超越闭源模型。

然而，闭源派代表百度CEO李彦宏则认为，开源是一种智商税。开源模型在参数规模相同的情况下，能力不如闭源模型，需要更大的参数规模和更高的推理成本。李彦宏还指出，模型开源和代码开源是两个概念，模型开源只能提供一堆参数，无法实现真正的共享。月之暗面创始人杨植麟和前OpenAI首席科学家Ilya Sutskever也认为，开源模型难以缩小与闭源模型的差距，闭源模式将持续领先。Ilya Sutskever进一步强调，未来AGI的强大性能使得开源在此时没有意义。李彦宏特别提到，使用开源模型进行个性化改款可能会创造出孤本模型，这些模型既无法从基础模型的持续升级中获益，也无法共享算力，无法实现众人拾柴火焰高的效果。

辩论问题二：超级应用——关注应用层的价值 vs 看重DAU

关于超级应用的衡量标准，业界存在两种主要观点。正方观点认为，超级应用应关注应用层的价值，而非单纯的用户活跃度（DAU）。百度CEO李彦宏强调，没有应用，光有基础模型，不管是开源还是闭源都一文不值，呼吁将关注点转移到通过大模型开发出满足市场需求的AI应用上。他提到，智能体（AI Agent）在大模型的加持下，可以根据专有知识库进行工作流的自动化处理，为医疗、教育、金融、制造等领域提供高价值的智能服务。商汤科技董事长兼CEO徐立和华为常务董事、华为云CEO张平安支持这一观点，认为应用是决定人工智能超级时刻的关键。徐立指出，超级时刻和应用是互相成就的，只有认知变化才能推动超级应用的出现。张平安则强调，要敢于开放行业场景，让人工智能在行业应用上领先。

反方观点则认为，超级应用的成功不仅在于应用价值，还在于市场的接受度和用户的广泛使用。Foundation Capital的Moore表示，创始人应先关注能解决的问题，然后再选择相应的技术。MiniMax创始人兼CEO闫俊杰和智谱AI CEO张鹏也认为，AI时代最大的应用还未出现，可能需要三年才能看到真正的大众化应用。张鹏补充说，超级应用的出现需要综合考量技术成熟度、市场和用户准备度，以及需求的发掘。他指出，突破大模型的多模态能力是关键，因为在人类现实世界中解决问题所需的输入是多模态的，这将带来AI的普惠和更大的可能性。

点击这里阅读原文

2024WAIC闭幕，我们整理了场内场外的AI辩论“修罗场”