1、问题描述
传统基于人工设计的面向单一任务的学习策略已经无法适应大量而灵活的工作需求,一种直观的解决办法是令机器人从人类的示教过程中自动获取任务信息并据此制定在任务执行环节具一定泛化能力的动作策略。目前应用最为广泛的一种拖动示教受到机器人硬件结构的严重干扰,无法灵活自如地发挥经过日常生活中无数次学习所形成的动作策略,只能勉强完成任务而不具优化效果。如何快速便捷地为机器人输入示教信息,同时基于执行机器人系统自身特征实现动作策略的适应性优化,是智能机器人真正走进人类生活所面临的首要问题。
针对示教过程涉及的目标物体特征多样且更换频繁的特点,提出一种具旋转不变性且对环境干扰具有鲁棒性的局部特征E-patch。E-patch以前景深度边缘点为中心沿深度梯度方向采样,从而具有良好的旋转不变性。依据深度检测结果剔除E-patch中的前景遮挡和背景干扰区域,从而提升了对环境干扰的鲁棒性。在孪生网络框架下训练基于CNN建立的特征编码器,以实现E-patch相似性度量向特征向量欧氏距离空间的映射。

然后结合特征匹配和位姿投票算法的优点,提出一种基于E-patch特征的目标检测与位姿估计算法。在离线阶段中,借助ChArUco标定板重构目标物体的网格模型之后,从均匀分布的采样视角得到RGB-D渲染视图,最后利用提取自各渲染视图的E-patch构建特征码书。在线阶段则通过特征匹配和位姿投票算法框架生成假设位姿。针对物体模型中不可见点对ICP配准结果的干扰,仅基于可视曲面实现假设位姿的检验与细化。

图2 基于 E-patch 特征的视觉检测算法框架图
由于在机器人任务学习方面,模仿学习方法以复现人类示教任务为目标,但通常脱离机器人系统的实际情况;强化学习方法面向实际系统但因巨大的动作探索空间而面临维数灾难的问题。结合二者优势提出一种兼顾便捷性与可靠性的机器人任务学习方法。首先,示教人员仅需完成单次的面向视觉观测的示教工作,之后基于DMPs框架通过对示教信息的模仿学习与泛化实现机器人动作探索空间的缩减,最后采用DDPG强化学习算法完成机器人动作策略的优化。为提升训练过程中动作策略的成功率,基于点吸引子系统设计运动控制器。


图4 位姿轨迹学习后物体运动路径位姿各维度分量规划曲线

图5 DDPG 算法训练后物体运动路径位姿各维度分量规划曲线
最后,基于UR机器人、Kinect深度传感器和上位机搭建学习拾放任务的实验平台算法。训练得到机器人的运动控制器,之后基于视觉感知算法估计初始场景内操作目标的空间位姿,最后将其代入运动控制器驱动UR机器人完成拾放任务。

针对现有RGB-D patch不具备旋转不变性和对环境干扰敏感的问题,提出了一种具有旋转不变性且对环境干扰鲁棒的多模态局部特征E-patch。针对视觉示教中存在的环境干扰问题和高精度的位姿估计需求,提出了一种基于E-patch特征的物体检测与精确位资估计方法。综合考虑模仿学习与强化学习各自的优缺点,提出了一种基于模仿学习和强化学习算法的机器人任务学习方法。最终,基于E-patch的视觉感知方法和基于DMPs和DDPG的任务学习方法均进行了实验研究,通过实验结果验证了所提出方法的有效性。
Airking Robots
北京艾科伯特科技有限公司,是专注协作机器人和移动机器人的技术公司,Airking Robots——艾科伯特立足于航空/航天,专注于机器人智能制造方向,Airking Robots是优傲机器人,Robotiq等协作机器人方向中国区域金牌提供商
商务联系:

更多关注公众号:

手机:13161062216
邮箱:info@airkingrobots.com
网址:www.airkingrobots.com