视觉 - 触觉融合驱动：双手机器人灵巧操作的技术突破与实践探索- 大数跨境

AirkingRobots艾科伯特科技

2026-01-30

导读：在机器人 manipulation 领域，实现人类级别的双手灵巧操作始终是极具吸引力却又充满挑战的目标。

在机器人 manipulation 领域，实现人类级别的双手灵巧操作始终是极具吸引力却又充满挑战的目标。人类凭借双手的协同配合、丰富的视觉感知与细腻的触觉反馈，能够轻松完成物体交接、积木堆叠、工具使用等复杂任务 —— 例如用一只手稳定握持煎锅，另一只手用锅铲精准挑起牛排并装盘，整个过程中既需通过视觉判断位置，又需依靠触觉感知力度以防滑落。然而，机器人系统要复刻这种能力，长期面临两大核心瓶颈：一是硬件层面，具备触觉传感功能的多指灵巧手稀缺且成本高昂，多数现有双手机器人系统只能采用功能单一的平行夹爪，限制了动作灵活性与接触交互精度；二是数据层面，缺乏经济、易用的遥操作系统，难以高效收集高质量的双手机巧操作演示数据，导致模仿学习等方法难以充分发挥作用。

研究背景

双手机器人灵巧操作的核心挑战与突破方向

传统双手机器人研究多采用两种技术路径：强化学习虽能自主探索动作策略，但存在样本复杂度高、虚实迁移难度大的问题，在真实世界中训练成本极高；经典控制方法则依赖专家对系统动力学与任务结构的深入理解，泛化性差，换用不同任务或物体后需重新调试参数。模仿学习为解决灵巧操作提供了新思路，通过学习人类演示数据获取策略，但现有研究多局限于单臂操作或平行夹爪设备，缺乏对双臂多指协同与视觉 - 触觉多模态融合的探索。此外，现有遥操作系统在处理多指手控制时，常因机器人与人类手部形态差异导致动作重定向延迟，操作直观性不足，难以收集到自然流畅的演示数据。这些问题共同导致双手机器人在长时程、高精度、复杂交互任务中的表现远不及人类，限制了其在工业装配、家庭服务、医疗辅助等领域的实用化进程。

针对上述痛点，加州大学伯克利分校的研究团队提出了一套 “硬件改造 + 遥操作 + 多模态学习” 的完整解决方案。该研究的核心目标是：通过低成本硬件适配与遥操作设计，高效收集视觉 - 触觉多模态演示数据；基于扩散模型训练能够完成复杂双手机巧操作的策略；验证视觉 - 触觉融合在提升操作鲁棒性与成功率中的关键作用，最终为双手机器人灵巧操作技术的发展提供可复现、可扩展的研究框架。这一方案不仅填补了双手机器人多指操作与多模态学习结合的研究空白，更为相关领域的后续探索提供了宝贵的硬件设计、数据资源与算法参考。

核心创新

硬件改造与HATO遥操作系统的协同设计

“

（一）触觉感知多指手：从假肢到研究工具的创新适配

解决硬件瓶颈的关键在于突破 “具备触觉传感的多指手稀缺” 这一难题。研究团队创新性地将 Psyonic Ability 假肢手改造为适用于机器人研究的灵巧手 —— 这款假肢原本为人体假肢设计，具备高度拟人化的结构与触觉感知能力，改造后既降低了硬件成本，又充分利用了其现成的传感与驱动功能。

改造后的灵巧手结构细节极具巧思：每只手包含 5 根手指，其中非拇指手指（食指、中指、无名指、小指）各有 1 个主动自由度（掌指关节，MCP），通过四连杆机构带动近节指间关节（PIP）实现 1 个被动自由度，这种 “主动 + 被动” 的设计既简化了控制复杂度，又能模拟人类手指的自然弯曲动作；拇指则具备 2 个主动自由度（屈伸与外展 / 内收），可灵活调整姿态以适配不同抓取需求。更重要的是，每根指尖配备 6 个触觉传感器，两只手共 60 个传感器，能够实时采集接触压力数据（无接触时读数为 200-400 ADC 值，接触时超过 1000 ADC 值），为触觉感知提供丰富输入。

为适配 UR5e 机器人手臂，团队设计了定制印刷电路板（PCB），整合通信接口与电源分配，简化了硬件接线与控制流程。UR5e 作为 6 自由度工业协作机器人，工作范围广且控制精度高，与改造后的灵巧手组成完整的双手机器人系统，为后续复杂操作任务提供了稳定的硬件基础。这种 “假肢改造” 的思路，为低成本获取触觉感知多指手提供了全新路径，打破了高端灵巧手硬件垄断的局面。

“

（二）HATO 遥操作系统：低成本、直观化的双手机器人控制

要收集高质量演示数据，必须解决遥操作的 “直观性” 与 “同步性” 问题。研究团队开发了名为 HATO 的低成本手 - 臂遥操作系统，基于 Meta Quest 2 虚拟现实（VR）设备实现对双手机器人的精准控制，核心创新在于设计了简洁有效的 “控制器 - 机器人” 动作映射方式，让无经验的操作员也能快速上手。

在手臂控制方面，系统通过 VR 控制器的视觉跟踪与惯性测量单元（IMU）数据，实时捕捉操作员手部的空间姿态，经坐标变换后得到机器人末端执行器的期望姿态；再通过逆运动学（IK）求解关节位置并发送控制指令。为应对 IK 求解失败的情况，系统设置了备用方案 —— 采用上一次的关节指令确保控制连续性，避免操作中断。此外，系统还支持两种备选控制模式：基于姿态增量的线性映射（将期望姿态与当前姿态的差值转化为关节位置差值）、直接发送末端执行器位置至机器人机载 IK 求解，满足不同场景下的控制需求。

在手部控制方面，团队采用 “分离式控制” 策略：将 VR 控制器的握力按钮映射为非拇指手指的屈伸动作，按压力度与手指弯曲程度成正比，可实现对抓握力度的精细控制（例如轻握鸡蛋不破损、紧握瓶子不滑落）；将拇指摇杆的二维位置映射为拇指的两个主动自由度运动（屈伸与外展 / 内收），操作员通过推动摇杆即可灵活调整拇指姿态。这种设计虽无法实现复杂的单指独立运动（如 “弹钢琴” 式动作），但已能覆盖绝大多数日常抓取模式，且操作直观性远超传统重定向方法。同时，系统设置了 “暂停 - 调整” 功能，操作员可通过扳机按钮中断连续控制，调整自身姿态后再继续，降低了长距离或高难度操作的疲劳感。

“

（三）全流程软件套件：数据收集、处理与策略部署的支撑

为实现 “数据收集 - 模型训练 - 策略部署” 的闭环，团队开发了一套全面的软件套件，涵盖多模态数据处理、可扩展策略学习与平滑部署等核心功能。在数据收集环节，系统以 10Hz 的频率同步记录多模态数据：包括 UR5e 手臂与灵巧手的本体感受数据（关节位置、末端执行器姿态）、三个 RGB-D 相机的视觉数据（两个手腕相机、一个顶视相机，分辨率 480×640，后续 resize 至 240×320）、60 个触觉传感器的压力数据，以及机器人的控制指令，确保每一条演示数据都包含完整的感知与动作信息。

在数据预处理环节，团队针对不同模态数据设计了标准化方案：数值型数据（关节位置、触觉读数）按维度线性缩放至 [-1,1] 范围，确保模型训练稳定性；手指关节位置采用固定最值（最小值 0，最大值分别为 [110,110,110,110,90,120]），避免因个体差异导致的标注偏差；RGB 图像保留 [0,255] 原始值，深度图像保留 [0,65535] 原始值，无需额外归一化即可输入模型。这种标准化处理既保证了数据一致性，又最大程度保留了原始感知信息。

在策略部署环节，软件套件支持异步推理架构，解决了扩散模型推理耗时与机器人实时控制需求的矛盾。远程推理服务器持续接收最新观测数据，运行扩散模型生成 16 步动作序列；本地执行进程接收动作序列后，对多个时间步的预测结果进行平均（时间集成），再发送至机器人执行。这种设计既提升了推理速度，又降低了动作抖动，确保操作的平滑性。

视觉-触觉技能学习

基于扩散模型的多模态策略训练

有了高质量数据，下一步需解决 “如何融合视觉 - 触觉信息，训练出稳定的双手机巧操作策略” 的问题。研究团队采用扩散策略（Diffusion Policy）作为核心算法，将动作预测转化为条件生成问题，能够建模动作的概率分布，生成多样化且符合物理约束的操作序列，同时充分利用多模态感知的互补优势。

“

（一）多模态特征编码：视觉、触觉与本体感受的协同融合

模型输入为 “本体感受 + 视觉 + 触觉” 多模态数据，每种模态通过专用网络进行特征编码，确保信息不丢失且易于融合：

本体感受编码：采用末端执行器姿态（而非关节位置）作为输入，原因是 UR5e 手臂无冗余关节，关节位置在奇点附近波动较大，易干扰学习；通过两层 ReLU 激活的全连接网络（隐藏层 256 维，输出层 64 维）将姿态信息转化为特征向量。
触觉编码：60 个触觉传感器的压力数据同样通过两层全连接网络编码，结构与本体感受网络一致，输出 64 维特征向量，捕捉接触力度的细微变化。
视觉编码：三个相机的 RGB 与深度图像独立处理，采用改进的 ResNet-18 架构 —— 将 BatchNorm 替换为 GroupNorm 以提升泛化性，全连接层输出 32 维特征向量。不共享相机权重的设计，让模型能分别学习手腕相机（少遮挡、近视角）与顶视相机（全局视角）的优势信息。

所有模态的编码特征 concatenate 后，输入 CNN-based 扩散模型，采用平方余弦噪声调度表，经过 100 步扩散过程生成动作序列。模型输出为 24 维动作向量：包含两只 UR5e 手臂的 6 个关节位置（归一化至 [-2π,2π]）、两只灵巧手的 6 个关节位置（归一化至 [0,1]），确保机器人能直接执行。

“

（二）高效训练与平滑部署：兼顾性能与实时性

在训练优化方面，模型采用 AdamW 优化器（学习率 0.0001，权重衰减 0.00001），批次大小 128，训练过程中维护模型权重的指数移动平均（EMA）以提升评估稳定性。团队发现，仅使用单步观测输入即可实现良好性能，无需历史观测序列，大幅降低了训练复杂度与推理延迟 —— 这一发现对实时控制至关重要，避免了因处理长序列数据导致的操作滞后。

部署阶段的核心挑战是 “扩散模型推理耗时” 与 “机器人实时控制需求” 的矛盾。团队提出异步推理架构：远程推理服务器持续接收最新观测数据，运行扩散模型生成 16 步动作序列；本地执行进程接收动作序列后，对多个时间步的预测结果进行平均（时间集成），再发送至机器人执行。这种 “并行推理 + 时间集成” 的设计，既解决了扩散模型推理慢的问题，又通过平均动作降低了抖动，提升了操作平滑度。部署时扩散步数减少至 15 步，在保证动作质量的前提下进一步提升推理速度，满足实时控制需求（10Hz 控制频率）。

实验设计

四大复杂任务验证系统综合能力

为全面验证系统的灵巧操作能力，研究团队设计了四个具有不同难度与技术挑战的真实世界任务，涵盖物体交接、bulky 物体操作、动态重心物体处理与工具使用等典型场景，每个任务均针对双手机器人的核心能力进行测试：

“

（一）光滑物体交接（Slippery Handover）：双手协同与抓取稳定性测试

任务初始时，光滑物体（如香蕉）放置在盒子上，要求一只手拾取物体并平稳交接给另一只手，接收手稳定握持物体并移动超过 10 厘米即为成功。该任务的核心挑战是 “光滑表面易滑落”—— 平行夹爪因接触面积小，极易出现物体滑落；而多指灵巧手凭借更大的接触面积与触觉反馈，能实时调整握力，有效避免滑落。团队收集了 100 条演示数据（单条时长约 6 秒），训练后的策略实现了 100% 的任务成功率，证明双手协同与触觉感知的有效性。

“

（二）积木堆叠（Tower Block Stacking）：bulky 物体操作与姿态控制测试

桌面上有两堆积木：一堆为两个积木（红、蓝），另一堆为单个黄色积木。要求机器人将两个积木的堆叠体移动并放置在黄色积木上，释放后保持稳定即为成功。该任务考验对 “体积大、质量分布不均” 物体的操作能力，需要双手协同稳定握持堆叠体，同时精准控制姿态以防倾倒。团队收集 100 条演示数据（单条时长约 20 秒），策略任务成功率达 100%，凸显了多指手 “大接触面积” 与视觉定位的优势。

“

（三）倒酒（Wine Pouring）：动态重心适应能力测试

凳子上放置装满透明珠子（模拟液体）的酒瓶与杯子，要求机器人一手握酒瓶、一手握杯子，完成倒酒动作后将两者放回原位。倒酒过程中，酒瓶的重心随珠子流出不断变化，对握力调整与姿态控制提出极高要求 —— 若握力不足，酒瓶易倾斜过度；若姿态偏差，珠子可能倒出杯子外。团队收集 300 条演示数据（单条时长约 25 秒），策略任务成功率达 90%，仅 1 次失败因杯子位置轻微偏移导致珠子洒出。

“

（四）牛排装盘（Steak Serving）：长时程任务与工具使用测试

桌面上有装有牛排的煎锅、锅铲与陶瓷盘，要求机器人一手握煎锅、一手握锅铲，将锅铲插入牛排下方并抬起，最终将牛排平稳放置在盘子上。这是四个任务中难度最高的：一是任务时长长（单条演示约 40 秒），需持续保持注意力；二是工具使用复杂，锅铲插入角度与力度需精准控制；三是牛排易滑落，需依靠触觉感知调整力度。团队收集 300 条演示数据，策略任务成功率达 50%，失败案例多因锅铲插入角度不当导致牛排滑落，但 100% 的物体拾取成功率（成功拿起煎锅与锅铲）仍证明了策略的基础能力。

关键因素分析

数据集、传感模态与视觉输入影响

为明确各因素对策略性能的影响，团队开展了系统的消融实验，以动作均方误差（ActionMSE，预测动作与真实动作的偏差）与任务成功率为核心指标，得出多项重要结论：

“

（一）数据集大小：数百条演示即可满足学习需求

实验结果显示，随着演示数据量增加，所有任务的 ActionMSE 均呈下降趋势并逐渐饱和：积木堆叠任务在 75 条演示时性能饱和，牛排装盘在 100 条时饱和，倒酒任务在 200 条时饱和，光滑物体交接任务虽未完全饱和，但 100 条演示已能实现 95% 以上的成功率。这一结果表明，仅需数百条演示数据即可训练出有效的双手机巧操作策略，远少于强化学习所需的百万级样本，大幅降低了数据收集成本。

这一发现具有重要实践意义：对于复杂双手机巧操作任务，无需投入大量时间与人力收集海量数据，仅需针对性收集数百条高质量演示，即可训练出性能良好的策略，为相关技术的快速落地提供了可能。

“

（二）传感模态：视觉与触觉的协同不可或缺

视觉的核心作用：无视觉输入时，所有任务的 ActionMSE 显著升高，牛排装盘任务的物体拾取成功率直接降至 0—— 原因是缺乏视觉定位，机器人无法找到煎锅与锅铲的位置。这证明视觉是实现物体定位、动作引导的基础，没有视觉，策略连基本操作都无法完成。
触觉的鲁棒性提升：无触觉输入时，积木堆叠与牛排装盘任务的 ActionMSE 虽与完整模态接近，但任务成功率明显下降：积木堆叠在 “罕见初始化” 场景（积木随机旋转）中的成功率从 100% 降至 40%，牛排装盘的整体成功率从 50% 降至 0。原因是触觉能感知物体细微偏移，例如堆叠时积木的轻微倾斜、牛排与锅铲的接触力度，这些信息无法仅通过视觉获取。
多模态融合的必要性：既无视觉也无触觉的设置下，所有任务的 ActionMSE 均最高，策略完全无法稳定完成任务，进一步验证了 “本体感受 + 视觉 + 触觉” 三模态融合的不可替代性。

“

（三）视觉输入类型：手腕相机更优，深度信息作用有限

相机位置的影响：仅手腕相机的策略在光滑物体交接、积木堆叠与牛排装盘任务中的 ActionMSE 低于仅顶视相机，原因是手腕相机随手臂运动，能提供更少遮挡、更贴近任务区域的视角（例如锅铲插入牛排时，手腕相机可清晰观察接触点）；倒酒任务中两者性能相当，因顶视相机更利于观察酒瓶与杯子的全局位置关系。
深度信息的作用：加入深度信息后，所有任务的 ActionMSE 未出现明显提升，部分任务（如倒酒）甚至性能下降。团队推测这是由于深度传感器的噪声干扰 —— 在近距离操作中，RGB 图像已能提供足够的位置信息，深度数据的噪声反而增加了学习难度。

这些结论为后续双手机器人系统设计提供了重要指导：应优先配置手腕相机，无需过度依赖深度传感器；同时必须保证视觉与触觉传感的协同工作，才能最大化策略性能。

总结

研究价值、局限与未来发展方向

“

（一）学术与应用价值：构建可复现的双手机巧操作框架

该研究的学术价值主要体现在三方面：一是提出 “假肢改造” 的低成本触觉灵巧手方案，打破了硬件门槛，使更多研究机构能够开展双手机器人灵巧操作研究；二是开发 HATO 遥操作系统，解决了双手机器人演示数据收集的效率问题，提供了直观、低成本的控制方式；三是验证了扩散模型与视觉 - 触觉融合在双手机巧操作中的有效性，明确了各关键因素的影响，为相关算法研究提供了参考。更重要的是，团队开源了所有硬件设计、软件代码与数据集（包含 88130 行运动数据、多模态演示视频），为领域内其他研究提供了宝贵的基准资源，推动双手机器人灵巧操作技术的快速发展。

在应用前景方面，该系统可广泛落地于多个领域：工业装配中，可通过演示学习快速掌握精密零件装配任务，凭借触觉感知适应零件微小偏差，提升装配精度与灵活性；家庭服务中，能完成物体交接、餐具摆放、食物处理等任务，提升服务机器人的实用性与用户接受度；医疗辅助中，温和的触觉控制可确保机器人协助行动不便者时不造成损伤，例如辅助喂食、物品整理等；教育科研中，低成本方案可让高校与科研机构以较低成本开展双手机巧操作研究，加速人才培养与技术创新。

“

（二）研究局限与改进空间

尽管研究取得显著成果，但仍存在三方面局限：一是传感反馈不完整，缺乏听觉反馈（如物体碰撞声、接触声）与更精准的力传感，无法区分接触材质、纹理等细节，限制了策略对复杂环境的适应能力；二是策略泛化性不足，仅在特定任务与环境中训练，对物体外观变化、环境布局调整的适应能力有限，且未进行预训练，学习效率仍有提升空间；三是遥操作体验待优化，未配备触觉反馈，操作员无法感知机器人与物体的接触力，可能影响演示数据的质量。

未来研究可从四方面推进：一是增强传感能力，加入麦克风收集声音信息，集成更精密的力传感器，丰富多模态输入，提升策略对环境的感知能力；二是提升策略泛化性，通过大规模多任务预训练、领域自适应技术，让策略能够快速适应新任务与新环境，减少对特定数据的依赖；三是优化遥操作体验，在 VR 控制器中加入触觉反馈模块，将机器人的触觉传感器数据映射为操作员的触觉感知，提升演示数据的质量；四是扩展任务复杂度，探索动态环境（如移动物体）、多目标排序等更复杂场景，开发左手按弦、拧瓶盖等更精细的操作能力，推动双手机器人向更广泛的应用场景延伸。

“

（三）总结：双手机器人灵巧操作的里程碑式探索

《Learning Visuotactile Skills with Two Multifingered Hands》的研究通过 “硬件改造 - 遥操作 - 多模态学习” 的全链条创新，成功构建了一套低成本、高效率、可复现的双手机器人灵巧操作解决方案。其核心突破在于：用假肢改造解决触觉灵巧手稀缺问题，用 HATO 系统解决演示数据收集难题，用扩散模型实现多模态策略学习，最终在四大复杂任务中验证了系统的有效性 —— 即使是最难的牛排装盘任务，也能达到 50% 的成功率。

该研究不仅在理论上填补了双手机器人多指操作与视觉 - 触觉融合学习的空白，更为相关领域的后续探索提供了宝贵的硬件设计、数据资源与算法参考。随着传感技术、机器学习算法的进一步发展，未来的双手机器人有望在更多场景中替代或辅助人类完成复杂操作，成为人机协作的重要伙伴，推动机器人技术向人类级灵巧操作迈出坚实一步。