Hassabis狂赞！谷歌爆改50年鼠标，指哪AI打哪，连提示词都省了- 大数跨境

新智元

2026-05-15

编辑：元宇

鼠标指针正在“长出大脑”

自1970年代诞生以来，鼠标指针形态未变——它出现在每个网页、文档与工作流中，却始终无法理解用户意图。

近日，Google DeepMind在其研究博客中公布由Gemini驱动的实验性原型「AI-enabled pointer」，并在Google AI Studio开放两个Demo：AI-Pointer: Create（图像编辑）与AI-Pointer: Find（地图定位）。

项目研究员Adrien Baranes与Rob Marchant指出：“我们正致力于构建更无缝、更直观的AI协作方式。”

DeepMind CEO Demis Hassabis评价该体验“相当神奇”。

图标未变，逻辑已变：光标不再仅指示位置，而是开始理解用户“想做什么”。

目前，用户可通过Google AI Studio体验上述两个Demo：

每天，大量时间被消耗在“解释上下文”上：切换窗口→复制内容→粘贴→撰写提示词→等待响应→返回执行……每一次切换都是认知中断。

用户真正花费精力的，往往不是解决问题本身，而是反复向AI说明“我在看什么”。DeepMind直指核心：“AI工具通常困在自己的窗口里，用户需要把世界拖进去。我们想要的恰恰相反——AI应该来找你，而不是你去找AI。”

「AI-enabled pointer」的核心目标，是构建一个能实时理解用户流动意图的系统。其设计基于四大原则：

AI能力应嵌入用户当前工作环境，不打断原有流程。例如，在PDF中悬停并说“生成可直接粘贴进邮件的摘要”，AI即时完成，用户继续操作。

无需撰写提示词。光标悬停处，Gemini自动捕获视觉信息与语义上下文，省去对内容的文字描述。

借鉴人类协作方式——“把这个数字翻倍，更新到那里”，配合指向动作即可。系统将语音中的“这个”“那里”与光标/手势所指对象及上下文动态绑定，实现精准意图解析。

演示中，Adrien通过头部追踪引导AI注意力，结合语音、文字与图像理解，实现多模态协同。

让屏幕上的像素具备可操作语义：悬停建筑图片，触发“导航”；识别手写便条，自动生成待办清单；暂停旅游视频帧，一键调出餐厅订位入口。

另一演示中，用户指向菜单并展示风格参考图，Gemini同步理解内容与视觉风格，一步生成融合二者的新设计——意图传达从“精确描述”升级为“自然指向”。

回望人机交互演进史：

2026年的AI指针，首次将交互重心从“人主动表达”转向“机器主动理解”。手势+语音+语义理解协同，使意图传达回归自然——用户仍需表达，但无需再费力解释“我在看什么”。

Adrien设想的未来操作系统中，AI主动呈现相关信息，用户以指向回应，双方共享注意力与画布，协作如同事般自然。

AI交互的终点，不是一个更聪明的搜索框，而是一位真正懂你、无需提醒的协作伙伴。

最好的工具，是你忘记它存在的那种。鼠标陪伴人类50年；下一个50年，它或将真正开始理解你。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 16209

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读226.2k

粉丝0

内容16.2k