
当机器人在实验室里学习怎么叠衣服、怎么端盘子时,它最缺的不是算力,而是一个人类站在旁边,手把手地示范给它看。而在印度,有一群人每天就在做这些事——只是他们自己可能还没意识到。
一家硅谷公司,盯上了印度的零工经济
印度这几年在线外卖市场涨得飞快,Zomato 和 Swiggy 相继上市,云厨房到处都是。与此同时,家政这块也冒出了 Urban Company、Snabbit、Pronto 这些平台,把上门保洁、维修、做饭变成了和点外卖一样平常的事。
Human Archive 这家硅谷初创公司,就在这片热闹的零工经济里找到了切口。
他们的做法简单粗暴:让外卖骑手、保洁阿姨、酒店服务员戴上装有摄像头的特制帽子,从第一人称视角记录下双手干活的每一个动作。扫地、铺床、端盘子、整理房间——这些最日常的劳动画面,被采集下来打包卖给全球的机器人实验室和 AI 公司。
这家公司目前已在家政、酒店、餐饮等行业铺开合作,在印度多地部署了超过 1000 套头戴采集设备。 就在本周,他们宣布完成 820 万美元 融资,投资方名单很亮眼:Wing Venture Capital、NVP Capital、Y Combinator,还有来自 OpenAI、Nvidia、Google、Meta 等公司的天使投资人。
Human Archive 的四位创始人是 UC Berkeley 和 Stanford 的学生,研究方向横跨机器人学、硬件和触觉数据。他们创业的逻辑很朴素:要让机器人真正走进现实世界干活,必须先让它们"看"够人类是怎么干活的。
机器人最大的瓶颈,是"没见过世面"
当下 AI 行业有个明显的趋势:软件层面的突破越来越接近天花板,下一个战场所有人都盯着同一个方向——让 AI 拥有物理身体,能在真实环境里完成实际任务。
无论是特斯拉的 Optimus,还是各大实验室里的机械臂,背后都需要海量训练数据。但问题在于,高质量的、覆盖真实生活场景的第一人称视角视频数据,远比互联网上的图文数据稀缺得多。
你可以让 AI 读完整互联网的文字,却很难让它"看"到一个保洁阿姨在狭小卫生间里怎样侧身擦拭马桶边缘。这种动作的复杂性、空间环境的多样性、人与物体交互的细微之处,是任何仿真环境都难以复制的。
Human Archive 押注的,就是这个空白。印度蓬勃发展的零工经济提供了一个尚未被开采的、可规模化的人类行为数据矿藏。每天有成千上万的人走进不同的家庭、酒店房间、餐厅后厨,做着高度重复但又真实无比的任务——这恰恰是机器人最需要的"教材"。
被拒绝、被嘲笑,这家公司怎么还没放弃
不过,这条路的起点并不顺利。Human Archive 明确承认,包括 Pronto 和 Urban Company 在内的多家印度知名家政平台直接拒绝了合作。 上周印度媒体 Entrackr 披露,Snabbit 曾与 Human Archive 有过早期洽谈,但最终不欢而散。
Urban Company 的 CEO 更在 X 上公开表态,称公司不会参与此类数据交易。Raj Patel 随即回怼,暗示 Urban Company 如果拒绝这一趋势,未来可能面临客户流失。而联合创始人 Rushil Agarwal 的说法更直接——他称 Pronto 创始人 Anjali Sardana 在听到数据合作的想法时,"当场嘲笑了他,还说他愚蠢"。Pronto 方面确认了有过对话,但表示选择不继续推进。
这些摩擦说明,用真人劳动换取 AI 训练素材,这个商业模式本身仍充满争议。 大公司担心品牌声誉、用户信任、监管风险;小公司即便愿意尝试,也往往在分成、隐私、工人权益等细节上谈不拢。
Human Archive 的应对策略是绕开巨头,转而去和规模更小、更灵活的平台合作。他们甚至直接面向消费者推出了一种折中方案:当服务人员上门时,App 会弹出两个选项——支付折扣价,但同意此次服务过程被记录;或者支付原价,享受一次"无录像"的上门服务。 不少消费者选了前者,因为在服务质量纠纷频发的家政行业,一段视频记录反而成了维权的证据。
从摄像头到触觉手套,这套设备有点东西
如果只是给工人戴个摄像头,这个故事并不会引起太多投资人兴趣。Human Archive 真正的技术护城河,在于他们正在构建一套多模态数据采集系统。
公司认为,单纯的第一人称视频对机器人训练来说远远不够。要真正理解"怎么做",机器还需要感知力度、触觉反馈、身体姿态,以及物体在三维空间中的深度信息。因此,他们在头戴式 RGB-D 摄像头之外,还开发并部署了 触觉手套、全身动作捕捉服、腕部相机 等设备。
从最初的 iPhone 临时架设,到如今拥有 超过 7 种不同的硬件产品 和 50 多套定制设备,这家公司一直在快速迭代采集工具。Patel 透露:"我们先从 iPhone 开始,然后做了自己的定制支架和帽子,现在已有七种不同的硬件产品,可以根据不同采集模态灵活切换。最大的技术挑战之一,是把所有不同来源的数据在时间轴上精确同步。"
投资人 Wing VC 合伙人 Zach DeWitt 评价说:"世界上还没有任何人能在大规模场景下,同步采集头戴 RGB-D、力反馈、全身动作捕捉以及胸式和腕式相机数据。 他们已经在用这些数据进行内部模型训练,几乎每一个顶级实验室和大学都想在他们的新数据集上跑实验。"
| 采集设备 | 采集数据类型 | 当前部署规模 | 应用场景 |
|---|---|---|---|
| 头戴 RGB-D 摄像头 | 第一人称彩色视频 + 深度信息 | 1000+ 套 | 家政、酒店、餐饮 |
| 触觉手套 | 力反馈与触觉数据 | 多台套 | 精细操作任务 |
| 全身动作捕捉服 | 骨骼运动轨迹 | 多套 | 复杂身体动作 |
| 腕部相机 | 手部特写视角 | 多台套 | 手-物交互细节 |
| 胸部相机 | 辅助视角补充 | 多台套 | 环境上下文补充 |
每小时1美元,这笔账谁来算
如果说技术创新是 Human Archive 的 A 面,那么 B 面则是围绕着零工劳动者展开的现实经济账。
根据公司披露,参与数据采集的工人基础报酬是 每小时 1 美元。而据《经济时报》援引的行业数据,其他类似公司在印度支付的数据采集报酬大约在 每小时 250 到 400 卢比(约合 2.63 到 4.20 美元)。Human Archive 给工人的时薪在同行中处于偏低水平。
Patel 的回应很直接:竞争对手确实给得更多,但 Human Archive 在印度本地的运营优势让他们能把成本控制得更低。投资方则将这套逻辑包装得更有愿景感,说这是在"降低参与 AI 经济的门槛"。
但对于每天工作数小时的零工劳动者来说,1 美元时薪是否公平?这些由他们双手创造的、最终可能训练出替代部分人工劳动的机器人数据,价值到底应该怎么分? 目前没有人给出清晰答案。
录像进家门,隐私红线在哪里
比薪酬更敏感的,是隐私。
当一段家政服务的视频被录制下来,画面里不仅有服务人员的操作过程,还有雇主家里的布局、家具摆设,甚至可能偶然拍到家庭成员的面孔或私人物品。Human Archive 声称,所有数据都经过匿名化处理,人脸会被模糊处理,并且遵守印度的《数字个人数据保护法》,在采集前会向工人展示隐私政策,说明数据采集的目的和处理方式。
但这些承诺是否足够,监管机构显然也在掂量。上周,Moneycontrol 报道称,印度电子和信息技术部已经着手调查多家通过家政工人采集第一人称数据的初创公司的同意机制和数据采集实践。 这意味着,即便 Human Archive 自认为合规,整个行业仍可能面临更严格的监管审视。
对消费者来说,折扣价换 consent 的模式固然是"你情我愿",但在信息不对称的背景下,普通人是否真的充分理解了这些数据最终会被用于训练机器人——而不是仅仅作为"服务质量记录"——仍然存疑。
野心不止印度,但前路还有未知数
尽管目前 Human Archive 的大部分数据采集仍集中在印度,但他们的扩张已经开始。公司透露,正在将业务拓展至东南亚和美国市场,还在搭建一个更开放的参与平台,理论上任何愿意提供数据的人都可以加入并从中获得报酬。
从更宏观的视角看,Human Archive 的竞争对手并不少。全球范围内,多家资金充裕的初创公司都在争夺物理 AI 的市场入口,而它们共同面对的核心挑战是同一个:去哪里找到足够多、足够好的人类干活视频?
Human Archive 选择的路径是,把这些数据采集设备嵌入到一个本就庞大、每天都在运转的零工经济体系里,用最低的边际成本获取最大的数据流量。但这个模式的可持续性和伦理边界,仍然需要时间来检验。
它能不能跑通,取决于两件事:一是能签下多少平台合作伙伴,二是采集到的数据在独特性、规模和质量上,能不能真正喂饱那些急于让机器人动起来的 AI 实验室。
无论如何,这个故事本身已经足够耐人寻味——在印度的街头巷尾、公寓厨房、酒店走廊里,那些戴着摄像头帽子的劳动者,正用最朴素的方式,教会世界上最先进的机器,怎样像人一样干活。

