大数跨境

你点击“我不是机器人”的时候,都是在帮Google免费训练无人驾驶车

你点击“我不是机器人”的时候,都是在帮Google免费训练无人驾驶车 DeepTech深科技
2026-03-18
10
导读:你大概做过无数次这件事:在登录银行账户、注册邮箱或者提交一个表单时,屏幕上弹出一组模糊的街景照片,要求你“点击

reCAPTCHA:一道安全验证,还是隐形的数据采集工具

你是否曾无数次在登录银行账户、注册邮箱或提交表单时,被要求点击“所有含红绿灯的图片”或“选出人行横道”?几秒钟后验证通过,你继续操作——却很少思考:这些图片从何而来?又去了哪里?

近期,用户 @sharbel 发布长文,系统梳理 reCAPTCHA(re-Completely Automated Public Turing test to tell Computers and Humans Apart)的发展脉络,并指出一个关键事实:过去十余年,全球数以亿计的普通用户在无意识中,为 Google 免费标注了海量街景图像数据。这些数据已明确用于 Google Maps 的视觉识别升级,并高度关联 Waymo 自动驾驶系统的训练需求。

从 CAPTCHA 到 reCAPTCHA:众包式数字劳动的诞生

2000 年,卡内基梅隆大学计算机科学家 Luis von Ahn 团队提出 CAPTCHA,通过扭曲文字区分人机。他很快意识到:全球用户每日投入数十亿秒的认知劳动被白白浪费。

2007 年,reCAPTCHA 上线。其核心创新在于“双重验证”:一组词中,一个用于身份校验,另一个则来自 OCR 无法识别的旧书报扫描件。用户输入的同时,即完成文本数字化。

图丨Luis von Ahn(来源:MIT News)

至 2011 年,reCAPTCHA 已协助完成 Google Books 全量档案数字化,并转录《纽约时报》自 1851 年起超 1,300 万篇文章。2009 年,Google 以“数千万美元”收购该技术,Von Ahn 随后创立多邻国(Duolingo),延续众包教育逻辑。

reCAPTCHA v2:从文字到图像,标注对象转向现实世界

约 2012 年,扭曲文字退出历史舞台。随着 Street View 车队覆盖全球道路,Google 急需对海量街景图像进行结构化标注:识别门牌号、路标、店铺招牌等。

reCAPTCHA v2 应运而生——用户面对图片网格,“点击所有交通信号灯”“选出所有人行横道”。这些图像直接源自 Google Street View。每一次点击,都在为计算机视觉模型标注像素区域:此处是红绿灯,此处是斑马线。

服务被嵌入银行、政府网站、电商平台等数百万站点,成为访问前提。用户没有替代选项:想登录账户,先完成标注。

规模与价值:被低估的人类标注力

据多方估算,reCAPTCHA 高峰期日均验证量达 2 亿次。加州大学尔湾分校(UC Irvine)2023 年论文《Dazed & Confused》指出:运行 13 年多以来,人类累计投入约 8.19 亿小时,按平均工资折算价值不低于 61 亿美元。

研究还估算,reCAPTCHA v2 产生的追踪 Cookie 数据终身价值高达 8,880 亿美元。作者 Andrew Searles 明确表示:“其真正目的,是收集用户信息与免费劳动。”

图丨相关论文(来源:arXiv)

数据去向:Google Maps 与 Waymo 的隐性基石

标注数据首要服务于 Google Maps。如今地图能自动识别路标、读取门牌号、解析城市空间结构,背后依赖的视觉识别能力,部分源于 reCAPTCHA 用户持续多年的标注积累。

更具争议的是其与 Waymo 的关联。Waymo 前身是 Google 2009 年启动的自动驾驶项目,2016 年独立为 Alphabet 子公司。其系统需高精度识别红绿灯、人行横道、行人、停车标志等数千类目标——而这正是 reCAPTCHA v2 长期要求用户标注的核心对象。

虽有 Google 代表称“截至 2021 年中,数据仅用于改进 Maps”,但 UC Irvine 研究者指出:任务设计与自动驾驶感知需求高度吻合。Google/Alphabet 同时掌控 reCAPTCHA 与 Waymo,内部数据流向无法审计。

截至 2026 年 2 月,Waymo 已完成超 2,000 万次付费载客,自主行驶里程突破 2 亿英里;2025 年载客量同比增长两倍至 1,500 万次;2026 年 2 月完成 160 亿美元融资,估值达 1,260 亿美元,已超越多数传统车企。

图丨Waymo 无人驾驶出租车(来源:Waymo)

v3 时代:零交互验证背后的深度监控

2018 年,reCAPTCHA v3 上线,取消全部用户交互。它通过监测鼠标轨迹、滚动模式、悬停时长、Canvas 渲染、屏幕分辨率、浏览器指纹等数百个行为参数,在后台判定用户身份。

UC Irvine 研究证实:v3 广泛采集 Cookie、浏览历史及设备环境数据。Google 声称不将其用于个性化广告,但 Cloudflare 等企业已于 2020 年因隐私顾虑弃用 reCAPTCHA,转投 hCaptcha。

更值得警惕的是有效性衰减:研究显示,2016 年已有方法以 70% 准确率攻破 v2 图像验证,复选框验证甚至可 100% 破解。安全防护能力持续弱化,而数据采集与用户追踪功能却始终高效运转。

本质再审视:安全工具,还是“伪装的标注农场”?

研究者尖锐指出:reCAPTCHA 已演变为“伪装成安全服务的免费图像标注劳动力来源与追踪 Cookie 农场”。这一判断并非学界共识——亦有观点认为,其仍具基础防护价值,至少提高了自动化攻击门槛。

但争议焦点早已不在“是否有效”,而在于:当一项安全工具同时承担大规模数据采集职能时,用户是否被充分告知?是否有真实选择权?

Von Ahn 最初的设计理想动人:让验证劳动服务公共知识——如书籍数字化。而 Google 收购后的路径转变,悄然将“公益”替换为“商业”:从构建数字图书馆,到训练估值千亿美元的自动驾驶系统。

奥地利联邦法院已裁定 reCAPTCHA 违反 GDPR,因其在未获充分知情同意前提下向 Google 传输用户数据。尽管欧洲监管趋严,全球仍有数百万网站持续部署该服务,静默运行。

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 5026
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读42.0k
粉丝0
内容5.0k