你点击“我不是机器人”的时候，都是在帮Google免费训练无人驾驶车- 大数跨境

首页

你点击“我不是机器人”的时候，都是在帮Google免费训练无人驾驶车

DeepTech深科技

2026-03-18

导读：你大概做过无数次这件事：在登录银行账户、注册邮箱或者提交一个表单时，屏幕上弹出一组模糊的街景照片，要求你“点击

reCAPTCHA：一道安全验证，还是隐形的数据采集工具？

你是否曾无数次在登录银行账户、注册邮箱或提交表单时，被要求点击“所有含红绿灯的图片”或“选出人行横道”？几秒钟后验证通过，你继续操作——却很少思考：这些图片从何而来？又去了哪里？

近期，用户 @sharbel 发布长文，系统梳理 reCAPTCHA（re-Completely Automated Public Turing test to tell Computers and Humans Apart）的发展脉络，并指出一个关键事实：过去十余年，全球数以亿计的普通用户在无意识中，为 Google 免费标注了海量街景图像数据。这些数据已明确用于 Google Maps 的视觉识别升级，并高度关联 Waymo 自动驾驶系统的训练需求。

从 CAPTCHA 到 reCAPTCHA：众包式数字劳动的诞生

2000 年，卡内基梅隆大学计算机科学家 Luis von Ahn 团队提出 CAPTCHA，通过扭曲文字区分人机。他很快意识到：全球用户每日投入数十亿秒的认知劳动被白白浪费。

2007 年，reCAPTCHA 上线。其核心创新在于“双重验证”：一组词中，一个用于身份校验，另一个则来自 OCR 无法识别的旧书报扫描件。用户输入的同时，即完成文本数字化。

图丨Luis von Ahn（来源：MIT News）

至 2011 年，reCAPTCHA 已协助完成 Google Books 全量档案数字化，并转录《纽约时报》自 1851 年起超 1,300 万篇文章。2009 年，Google 以“数千万美元”收购该技术，Von Ahn 随后创立多邻国（Duolingo），延续众包教育逻辑。

reCAPTCHA v2：从文字到图像，标注对象转向现实世界

约 2012 年，扭曲文字退出历史舞台。随着 Street View 车队覆盖全球道路，Google 急需对海量街景图像进行结构化标注：识别门牌号、路标、店铺招牌等。

reCAPTCHA v2 应运而生——用户面对图片网格，“点击所有交通信号灯”“选出所有人行横道”。这些图像直接源自 Google Street View。每一次点击，都在为计算机视觉模型标注像素区域：此处是红绿灯，此处是斑马线。

该服务被嵌入银行、政府网站、电商平台等数百万站点，成为访问前提。用户没有替代选项：想登录账户，先完成标注。

规模与价值：被低估的人类标注力

据多方估算，reCAPTCHA 高峰期日均验证量达 2 亿次。加州大学尔湾分校（UC Irvine）2023 年论文《Dazed & Confused》指出：运行 13 年多以来，人类累计投入约 8.19 亿小时，按平均工资折算价值不低于 61 亿美元。

研究还估算，reCAPTCHA v2 产生的追踪 Cookie 数据终身价值高达 8,880 亿美元。作者 Andrew Searles 明确表示：“其真正目的，是收集用户信息与免费劳动。”

图丨相关论文（来源：arXiv）

数据去向：Google Maps 与 Waymo 的隐性基石

标注数据首要服务于 Google Maps。如今地图能自动识别路标、读取门牌号、解析城市空间结构，背后依赖的视觉识别能力，部分源于 reCAPTCHA 用户持续多年的标注积累。

更具争议的是其与 Waymo 的关联。Waymo 前身是 Google 2009 年启动的自动驾驶项目，2016 年独立为 Alphabet 子公司。其系统需高精度识别红绿灯、人行横道、行人、停车标志等数千类目标——而这正是 reCAPTCHA v2 长期要求用户标注的核心对象。

虽有 Google 代表称“截至 2021 年中，数据仅用于改进 Maps”，但 UC Irvine 研究者指出：任务设计与自动驾驶感知需求高度吻合。Google/Alphabet 同时掌控 reCAPTCHA 与 Waymo，内部数据流向无法审计。

截至 2026 年 2 月，Waymo 已完成超 2,000 万次付费载客，自主行驶里程突破 2 亿英里；2025 年载客量同比增长两倍至 1,500 万次；2026 年 2 月完成 160 亿美元融资，估值达 1,260 亿美元，已超越多数传统车企。

图丨Waymo 无人驾驶出租车（来源：Waymo）

v3 时代：零交互验证背后的深度监控

2018 年，reCAPTCHA v3 上线，取消全部用户交互。它通过监测鼠标轨迹、滚动模式、悬停时长、Canvas 渲染、屏幕分辨率、浏览器指纹等数百个行为参数，在后台判定用户身份。

UC Irvine 研究证实：v3 广泛采集 Cookie、浏览历史及设备环境数据。Google 声称不将其用于个性化广告，但 Cloudflare 等企业已于 2020 年因隐私顾虑弃用 reCAPTCHA，转投 hCaptcha。

更值得警惕的是有效性衰减：研究显示，2016 年已有方法以 70% 准确率攻破 v2 图像验证，复选框验证甚至可 100% 破解。安全防护能力持续弱化，而数据采集与用户追踪功能却始终高效运转。

本质再审视：安全工具，还是“伪装的标注农场”？

研究者尖锐指出：reCAPTCHA 已演变为“伪装成安全服务的免费图像标注劳动力来源与追踪 Cookie 农场”。这一判断并非学界共识——亦有观点认为，其仍具基础防护价值，至少提高了自动化攻击门槛。

但争议焦点早已不在“是否有效”，而在于：当一项安全工具同时承担大规模数据采集职能时，用户是否被充分告知？是否有真实选择权？

Von Ahn 最初的设计理想动人：让验证劳动服务公共知识——如书籍数字化。而 Google 收购后的路径转变，悄然将“公益”替换为“商业”：从构建数字图书馆，到训练估值千亿美元的自动驾驶系统。

奥地利联邦法院已裁定 reCAPTCHA 违反 GDPR，因其在未获充分知情同意前提下向 Google 传输用户数据。尽管欧洲监管趋严，全球仍有数百万网站持续部署该服务，静默运行。

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 5026

粉丝 0

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读42.0k

粉丝0

内容5.0k