大数跨境
0
0

别小看送外卖的,美团搞的这个 CatPaw,有点东西

别小看送外卖的,美团搞的这个 CatPaw,有点东西 AI软件测评说
2025-11-07
0
导读:刷了几天短视频,感觉有点腻。一如既往的翻翻各种订阅然后我就看到了一个,让我有点小兴奋的东西。是美团发的。对。

刷了几天短视频,感觉有点腻。

一如既往的翻翻各种订阅

然后我就看到了一个,让我有点小兴奋的东西。

美团发的。

对。

就是那个天天给你送外卖,帮你买菜的美团。

它搞了个AI项目,叫 CatPaw。

中文名叫“猫爪”。

这个名字还挺有意思,大概是想说像猫爪一样精准、灵敏?

这“猫爪”,是干嘛的?

简单说。

UI 自动化。

而且是“看得懂”人话、看得懂“长相”的那种自动化。

我们以前搞网页自动化。

比如用 Selenium 或者 Playwright。

那叫一个折腾。

你得写一大堆 XPath 或者 CSS 选择器,去定位页面上的元素。

“点击这个 class 是 ‘btn-primary’ 且 id 是 ‘submit-001’ 的按钮”

写起来费劲。

而且。

最要命的是,前端但凡改个版,动一下 DOM 结构。

你写的脚本。

就全废了。

全部推倒重来,维护成本高到让人想砸电脑。

但 CatPaw,不一样

它不是靠“记路”的。

它是靠“看”的。

它用的是多模态大模型,能同时理解网页的 「截图」(视觉长相)和 「DOM」(HTML骨架)。

这就带来一个质变。

你不用再给它写那么恶心的选择器了。

你可以直接下“人话”指令。

“帮我点一下那个红色的登录按钮”

“在搜索框里输入 ‘AI软件测评说’”

“找到所有价格低于100的商品,然后截图”

它自己就能“看”懂页面,找到对应的元素,然后执行。

我直接测了一下。

它给出的那个核心模型,CatPaw-Agent,识别元素的能力非常强。

你给它一张网页截图,它能把页面上所有“可点击的”、“可输入的”元素,全都给你框出来。

这个识别率。

不愧是美团这种天天跟复杂UI打交道的公司,拿出来的东西。

毕竟。

他们自己有海量的网页、App界面需要做自动化测试。

用老办法,光是测试工程师的人力成本,估计都是个天文数字。

需求。

永远是技术的第一推动力。

它的逻辑,我也扒了扒

整个工作流,分两步。

「第一步:感知(Perception)」

模型先“看”一眼当前的网页,把页面上所有它认为有用的元素(按钮、输入框、链接、图片)都识别出来。

并且。

给它们标上序号。

「第二步:行动(Action)」

你给出一个指令,比如“搜索 CatPaw”。

模型会把你的 「指令」 和它上一步 「感知」 到的元素做匹配。

“哦,用户想‘搜索’... 我看看... 页面上的 序号5 是个输入框,序号8 是个搜索按钮。”

“明白了。”

然后,它就把你的指令,自动翻译成机器操作:

click(5)

type(5, 'CatPaw')

click(8)

搞定。

整个过程,非常丝滑。

它把一个模糊的人类意图,拆解成了精准的机器动作。

而且,我看了一下它的支持列表。

它不只支持 GPT-4V 这种闭源的大家伙。

它还支持像 CogVLM、MiniCPM-V 这类的开源多模态模型。

这就很上道了。

意味着我们可以本地部署,成本更低,也更可控。

说到这,我就在想。

为什么是美团做这个。

而不是别的什么大厂。

我觉得,这就是我之前文章里提过的(虽然我忘了是哪篇)。

需求,决定了技术的走向。

你想想美团的 App。

那已经不是一个 App 了,那简直是一个 App Store。

外卖、酒旅、买菜、打车、买药、共享单车...

乱七八糟全塞在一起。

这种超级 App 的自动化测试,用传统脚本,那简直是灾难。

牵一发动全身。

所以,他们是被“逼”出来的。

必须得用 AI 这种更“智能”且“鲁棒”的方式,来解决这种地狱级的测试难题。

我反而对 CatPaw 这种项目,好感度特别高。

它够“土”。

够实在。

它不是要带我们去火星,也不是要马上实现通用人工智能。

它就是要做一件事。

把我们从以前那些,极其繁琐、重复、且枯燥的体力活(比如点点点、写选择器)里。

解放出来。

这不就是AI,或者说,工具。 最该干的事吗?

它让我们活得。

更像一个搞创作的人,而不是一个点页面的机器。


体验通道:https://catpaw.meituan.com/

目前免费!

「以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。」

作者介绍:taskinai(vx:skingko) ——链接我,我将用键盘拯救你的

技术宇宙!


【声明】内容源于网络
0
0
AI软件测评说
专注分享Vibe Coding、独立开发Ai 工具和创业灵感
内容 385
粉丝 0
AI软件测评说 专注分享Vibe Coding、独立开发Ai 工具和创业灵感
总阅读181
粉丝0
内容385