新智元报道
新智元报道
【新智元导读】Google DeepMind发布实验原型「AI-enabled pointer」,在键盘、鼠标、触屏之后,探索下一代人机交互范式。
鼠标指针正在“长出大脑”
自1970年代诞生以来,鼠标指针形态未变——它出现在每个网页、文档与工作流中,却始终无法理解用户意图。
近日,Google DeepMind在其研究博客中公布由Gemini驱动的实验性原型「AI-enabled pointer」,并在Google AI Studio开放两个Demo:AI-Pointer: Create(图像编辑)与AI-Pointer: Find(地图定位)。
项目研究员Adrien Baranes与Rob Marchant指出:“我们正致力于构建更无缝、更直观的AI协作方式。”
DeepMind CEO Demis Hassabis评价该体验“相当神奇”。
图标未变,逻辑已变:光标不再仅指示位置,而是开始理解用户“想做什么”。
目前,用户可通过Google AI Studio体验上述两个Demo:
- AI-Pointer: Create:入口链接
AI应该来找你,而不是你去找AI
每天,大量时间被消耗在“解释上下文”上:切换窗口→复制内容→粘贴→撰写提示词→等待响应→返回执行……每一次切换都是认知中断。
用户真正花费精力的,往往不是解决问题本身,而是反复向AI说明“我在看什么”。DeepMind直指核心:“AI工具通常困在自己的窗口里,用户需要把世界拖进去。我们想要的恰恰相反——AI应该来找你,而不是你去找AI。”
不用提示词,指着说AI就懂
「AI-enabled pointer」的核心目标,是构建一个能实时理解用户流动意图的系统。其设计基于四大原则:
Maintain the flow(保持流畅)
AI能力应嵌入用户当前工作环境,不打断原有流程。例如,在PDF中悬停并说“生成可直接粘贴进邮件的摘要”,AI即时完成,用户继续操作。
Show and tell(指给它看)
无需撰写提示词。光标悬停处,Gemini自动捕获视觉信息与语义上下文,省去对内容的文字描述。
Embrace the power of This and That(理解指代)
借鉴人类协作方式——“把这个数字翻倍,更新到那里”,配合指向动作即可。系统将语音中的“这个”“那里”与光标/手势所指对象及上下文动态绑定,实现精准意图解析。
演示中,Adrien通过头部追踪引导AI注意力,结合语音、文字与图像理解,实现多模态协同。
Turn pixels into actionable entities(像素即语义)
让屏幕上的像素具备可操作语义:悬停建筑图片,触发“导航”;识别手写便条,自动生成待办清单;暂停旅游视频帧,一键调出餐厅订位入口。
另一演示中,用户指向菜单并展示风格参考图,Gemini同步理解内容与视觉风格,一步生成融合二者的新设计——意图传达从“精确描述”升级为“自然指向”。
从概念到落地
相关技术已进入产品化阶段:
- Chrome浏览器支持用户直接指向网页内容,向Gemini发起提问;
- Google Book设备将搭载Magic Pointer功能,首批设备计划于2026年秋季上市。
但通往日常可用仍需突破:跨应用兼容性、识别准确率、响应延迟,以及屏幕数据采集与处理的隐私机制,均需在真实复杂环境中持续优化。
键盘1973,鼠标1984,触屏2007,下一代交互在2026
回望人机交互演进史:
- 1973年,Xerox Alto奠定图形界面与鼠标雏形;
- 1984年,Macintosh推动鼠标走入大众;
- 2007年,iPhone确立触屏为移动交互核心;
- 2022年起,提示词框拓展表达带宽,但仍未摆脱“翻译意图”的负担。
2026年的AI指针,首次将交互重心从“人主动表达”转向“机器主动理解”。手势+语音+语义理解协同,使意图传达回归自然——用户仍需表达,但无需再费力解释“我在看什么”。
Adrien设想的未来操作系统中,AI主动呈现相关信息,用户以指向回应,双方共享注意力与画布,协作如同事般自然。
AI交互的终点,不是一个更聪明的搜索框,而是一位真正懂你、无需提醒的协作伙伴。
最好的工具,是你忘记它存在的那种。鼠标陪伴人类50年;下一个50年,它或将真正开始理解你。

