大数跨境
0
0

【人工智能】AI 教母李飞飞对计算机视觉有自己的看法

【人工智能】AI 教母李飞飞对计算机视觉有自己的看法 七元宇宙
2024-12-13
0
导读:她的初创公司 World Labs 致力于为机器提供 3D 空间智能
她的初创公司 World Labs 致力于为机器提供 3D 空间智能

斯坦福大学教授李飞飞已经在人工智能历史上赢得了一席之地。多年来,她一直致力于创建ImageNet数据集和竞赛,在深度学习革命中发挥了重要作用。该竞赛要求人工智能系统识别 1,000 个类别的物体和动物。2012 年,一个名为 AlexNet 的神经网络在人工智能研究界引起了轩然大波,因为它的表现远远超过所有其他类型的模型,并赢得了 ImageNet 竞赛。从那时起,神经网络开始腾飞,其动力来自互联网上现有的大量免费训练数据和提供空前计算能力的GPU 。

自 ImageNet 发布以来的 13 年里,计算机视觉研究人员掌握了物体识别技术,并开始研究图像和视频生成。李飞飞与他人共同创办了斯坦福大学以人为本的人工智能研究所(HAI),并不断突破计算机视觉的界限。就在今年,她创办了一家初创公司World Labs,该公司可以生成用户可以探索的 3D 场景。World Labs 致力于赋予人工智能“空间智能”,即生成 3D 世界、在其中进行推理并与 3D 世界互动的能力。李飞飞昨天在大型人工智能会议NeurIPS上发表了主题演讲,讲述了她对机器视觉的愿景。

为什么您的演讲题目是“攀登视觉智能的阶梯”?

李飞飞:我认为,直觉告诉我们,智能具有不同的复杂度和精密度。在演讲中,我想传达这样一种感觉:在过去的几十年里,尤其是过去十多年的深度学习革命中,我们在视觉智能方面所取得的成就令人惊叹。我们越来越擅长使用这项技术。我还受到了 Judea Pearl 的“因果关系阶梯”的启发(收录于他 2020 年出版的《为什么之书》一书中)。

演讲还有一个副标题,即“从看到到做”。这是人们没有足够重视的一点:看到与互动和做事紧密相关,无论是对于动物还是对于人工智能智能体来说都是如此。这与语言背道而驰。语言从根本上来说是一种用来传达思想的交流工具。在我看来,它们是非常互补但同样深刻的智能模式。

您的意思是我们会本能地对某些景象做出反应?

李:我不仅仅谈论本能。如果你观察感知的进化和动物智力的进化,就会发现它们紧密交织在一起。每当我们能够从环境中获取更多信息时,进化的力量就会推动能力和智力向前发展。如果你不感知环境,你与世界的关系就会非常被动;无论你是吃东西还是被吃掉,都是非常被动的行为。但一旦你能够通过感知从环境中获取线索,进化压力就会真正增强,从而推动智力向前发展。

你认为这就是我们创造越来越深层次的机器智能的方式吗?通过让机器更多地感知环境?

李:我不知道“深”是不是我会使用的形容词。我认为我们正在创造更多的能力。我认为它正变得更加复杂,更加强大。我认为解决空间智能问题是迈向全面智能的根本和关键的一步,这是绝对正确的。

我看过世界实验室的演示。你为什么想研究空间智能并构建这些 3D 世界?

:我认为空间智能是视觉智能的发展方向。如果我们认真对待解决视觉问题并将其与行动联系起来,那么有一个非常简单、显而易见的事实:世界是三维的。我们不是生活在一个平面的世界里。我们的物理智能体,无论是机器人还是设备,都将生活在三维世界中。即使是虚拟世界也变得越来越三维。如果你和艺术家、游戏开发者、设计师、建筑师、医生交谈,即使他们在虚拟世界中工作,其中很多都是三维的。如果你花一点时间认识到这个简单而深刻的事实,毫无疑问,解决三维智能问题是根本性的。

我很好奇世界实验室的场景如何保持物体的永久性并遵守物理定律。这感觉像是一个令人兴奋的进步,因为像 Sora 这样的视频生成工具仍然在处理这些事情。

李:一旦你尊重世界的三维性,很多事情就变得自然了。例如,在我们发布到社交媒体上的一个视频中,篮球被扔进了一个场景中。因为它是三维的,所以它让你拥有这种能力。如果场景只是二维生成的像素,篮球就哪儿也去不了。

或者,就像在 Sora 中一样,它可能会去某个地方,然后消失。在尝试推动这项技术发展时,您面临的最大技术挑战是什么?

李:还没有人解决这个问题,对吧?这非常非常困难。你可以在 World Labs 的演示视频中看到,我们以一幅梵高画作为基础,以一致的风格生成了整个场景:艺术风格、灯光,甚至街区的建筑类型。如果你转身,它就变成了摩天大楼,那就完全无法令人信服了,对吧?而且它必须是 3D 的。你必须在其中导航。所以它不仅仅是像素。

你能说一下你用来训练它的数据吗?

李:很多。

您是否遇到与计算负担相关的技术挑战?

李:这需要大量的计算。这是公共部门无法负担的计算。这也是我很高兴利用这个休假、以私营部门的方式做这件事的部分原因。这也是我一直倡导公共部门使用计算资源的部分原因,因为我自己的经验强调了拥有足够资源的创新的重要性。

赋予公共部门权力是一件好事,因为它通常更愿意为自己获取知识,为人类谋福利

李:知识发现需要资源的支持,对吧?在伽利略时代,望远镜是天文学家观察新天体的最好工具。胡克意识到放大镜可以变成显微镜,并发现了细胞。每当有新的技术工具出现时,它都会帮助人们寻求知识。而现在,在人工智能时代,技术工具涉及计算和数据。对于公共部门,我们必须认识到这一点。

您希望联邦政府采取哪些措施来提供资源?

这是斯坦福大学人工智能研究中心过去五年来一直在做的事情。我们一直在与国会、参议院、白宫、工业界和其他大学合作,创建国家人工智能研究资源中心(NAIRR) 。

假设我们能够让人工智能系统真正理解三维世界,这会给我们带来什么呢?

李:它将释放出大量创造力和生产力。我希望以更高效的方式设计我的房子。我知道许多医疗用途都涉及了解一个非常特殊的 3D 世界,即人体。我们总是谈论未来人类将创造机器人来帮助我们,但机器人在 3D 世界中导航,它们需要空间智能作为大脑的一部分。我们还谈论虚拟世界,它允许人们参观地方、学习概念或获得娱乐。这些都使用 3D 技术,尤其是混合技术,我们称之为 AR [增强现实]。我很想戴着一副眼镜穿过国家公园,它可以让我了解树木、道路和云朵。我也希望借助空间智能学习不同的技能。

有什麼技能?

李:我举个蹩脚的例子,如果我在高速公路上爆胎了,我该怎么办?现在,我打开一个“如何换轮胎”的视频。但如果我能戴上眼镜,看看我的车发生了什么,然后得到指导,那就太酷了。但这是一个蹩脚的例子。你可以考虑烹饪,你可以考虑雕刻——有趣的事情。

您认为我们这一生能实现这一目标吗?

李:哦,我认为这将在我们有生之年发生,因为技术进步的速度非常快。你已经看到了过去 10 年带来的变化。这无疑预示着接下来会发生什么。


免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系。所有信息仅供参考和分享,不构成任何投资建议。加密货币市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。
注我们,一起探索AWM

近期热

AI 世界模型真的能理解物理定律吗?

2024-12-03

影响2025年的十大银行和金融科技趋势

2024-11-17

30个生成式人工智能用例

2024-11-16

【声明】内容源于网络
0
0
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
内容 3217
粉丝 0
七元宇宙 AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
总阅读729
粉丝0
内容3.2k