今日值得关注的人工智能新动态:
马斯克高调公布xAI,宣战OpenAI
谷歌推出NotebookLM
谷歌面临集体诉讼:指控窃取互联网信息
GPT-4 又懒又笨?原因可能在这里
VELMA:街景视觉和语言导航的 LLM 代理的语言化体现
VoxPoser:实现零样本操纵机器人
01
马斯克官宣新公司xAI,宣战OpenAI
当地时间周三,特斯拉公司首席执行官马斯克正式宣布成立 xAI,这家公司旨在了解宇宙的本质。马斯克将亲自领导其核心团队,并依托 Google DeepMind、微软和特斯拉等科技巨头以及学术机构等一批 AI 行业的资深人士,与 OpenAI 展开竞争。与此同时,xAI 还宣布, Center for AI Safety 现任主任 Dan Hendrycks 将为该团队提供建议。
02
谷歌推出NotebookLM
谷歌在今年的 I/O 开发者大会上推出的 AI 支持的笔记工具 Project Tailwind 重新命名为NotebookLM,在继续完善该产品的同时,谷歌将向美国的一小部分用户推出该产品。作为一款经过用户文档训练的 AI 笔记本,NotebookLM 主要为经常接触大量文本的用户提供个性化导师或写作伴侣。
03
谷歌面临集体诉讼:
指控窃取互联网信息
近日,美国一家律所向加州联邦法院提起了针对谷歌、Alphabet 和 Google DeepMind 的集体诉讼 。该律所此前于上个月对 OpenAI 提起了类似诉讼。诉状称,谷歌“一直在秘密窃取数亿美国人在互联网上创建和共享的所有内容”,并利用这些数据来训练其 AI 产品。另外,谷歌已经“几乎利用了我们的全部数字足迹”,包括“创意和文案作品”。谷歌回应称这些指控毫无根据。
04
GPT-4 又懒又笨?
原因可能在这里
最近几周,OpenAI GPT-4 的用户一直在大声抱怨性能下降,一些人称该模型与之前的推理能力和其他输出相比“更懒”、“更笨”。 初创公司 Lamini 首席执行官 Sharon Zhou 等专家表示,OpenAI 正在创建几个较小的 GPT-4 模型,其行为与大型模型类似,但运行成本较低。这种方法被称为 Mixture of Experts(MOE)。每个较小的专家模型都接受不同任务和主题领域的训练。当 GPT-4 用户提出问题时,新系统知道将该查询发送给哪个专家模型。为了以防万一,新系统可能会决定向两个或多个专家模型发送查询,然后将结果混合在一起。
05
VELMA:
街景视觉和语言导航的
LLM 代理的语言化体现
为将视觉和语言导航( VLN )与交互式视觉环境实现最佳连接,德国海德堡大学、加利福尼亚大学圣芭芭拉分校和 IWR 共同提出了一种具体化的 LLM 代理——VELMA,该模型使用轨迹和视觉环境观察的口头描述作为下一步行动的上下文提示。视觉信息通过从人类编写的导航指令中提取地标,并使用 CLIP 确定它们在当前全景视图中的可见性的流水线进行语言化处理。研究展示了 VELMA 在 Street View 中能够仅凭两个上下文示例成功遵循导航指令。另外,研究人员在数千个示例上进一步微调 LLM 代理,与两个数据集的先前最先进技术相比,任务完成率相对提高了 25%-30%。
论文链接:
https://arxiv.org/abs/2307.06082
06
VoxPoser:
实现零样本操纵机器人
近日,AI 专家李飞飞带领的团队发布了具身智能最新成果:大模型接入机器人,把复杂指令转化成具体行动规划,人类可以很随意地用自然语言给机器人下达指令。更重要的是,通过将大型语言模型( LLM )+ 视觉语言模型( VLM )结合在一起,机器人与环境进行交互的能力进一步提升,无需额外数据和训练便可完成任务。李飞飞团队将该系统命名为 VoxPoser,相比传统方法需要进行额外的预训练,这个方法让机器人在零样本的前提下完成操作,解决了机器人训练数据稀缺的问题。目前项目主页和论文都已上线,代码即将推出。
论文链接:
https://arxiv.org/abs/2307.05973
|点击关注我 👇 记得标星|

