论文总结

  1. 人手臂与机器人的实施映射控制(视频、肌电信号、佩戴IMU)
  2. 人类控制机器人演示,再由机器人在其他环境实现相似任务
  3. 从人类视频学习人手动作意图,实现机器人末端的运动模仿
  4. 基于目标物体的位姿变化趋势实现模仿学习
    目前从人类手臂关节直接学习机器人动作的方法,大多通过在手臂上安装传感器例如IMU等或通过相机视觉识别人手姿态实现遥操作。但是从人手视频直接提取关节用于陌生环境,没有相关的研究。

1 MimicPlay: Long-Horizon Imitation Learning by Watching Human Play

标题:模拟游戏:通过观看人类游戏进行的长期模拟学习
作者团队:斯坦福大学
期刊会议:CoRL
时间:2023
代码https://mimic-play.github.io/(code is coming soon)

1.1 目标问题

由于人类比遥控机器人能更快的完成长时间任务,因此启发从人类演示中学习机器人规划策略。

为了减少数据需求,采用人类与环境的交互视频作为数据。开发一个分层学习框架,从人类数据中学习潜在的规划控制方法。

1.2 方法

image.png

(1)从人类数据中学习潜在规划

给定输入:视觉观察$o_t$,未来的目标图像$g_t$,当前手部位置$l_t$
训练过程中,$g_t$被视为执行动作后的未来帧
规划期的目标是根据视频提示V生成目标图像的动作规划。

  1. 人类演示数据收集
  2. 跟踪人手三维轨迹:使用双目相机获取人手的3D轨迹,利用现成的手部检测器确定2维图像中的手部位置,然后利用双目视图重建手的3D轨迹。
  3. 学习潜在规划:使用两个卷积网络分别将当前图像和目标图像处理为低维特征,再与手部位置连接在一起,使用MLP处理为潜在规划特征。生成3D手部运动轨迹。为了处理同一个任务的不同方式的实现,使用高斯混合模型对潜在规划的轨迹分布进行建模。

(2)计划引导的多任务模仿学习

机器人的底层策略使用行为克隆算法进行训练,使用通过遥操作收集的机器人演示数据。

  1. 视频条件下的潜在规划生成:使用遥操作机器人任务视频来提示训练时潜在规划器生成相应的规划。
  2. 基于Transformer的规划引导模仿:将机器人手上相机观察和本体姿态信息处理为低维向量,再与潜在计划连接起来,通过Transformer架构来计算最终的机器人控制命令。
  3. 多任务学习

1.3 思考

李飞飞团队的作品,从视频中学习人手的运动轨迹,code is coming soon,等待后续再细看。

2 One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning

标题:通过领域自适应元学习观察人类的一次性模仿
作者团队:加州大学伯克利分校
期刊会议:arXiv
时间:2018
代码
官方版: https://github.com/tianheyu927/mil
Pytorch版: https://github.com/daiyk/daml_pytorch

2.1 目标问题

提出一种从人类视频中进行学习的方法,通过使用各种先前任务的人类和机器人演示数据,使机器人执行人类演示的任务。

2.2 方法

(1)问题描述

将先验知识和少量证据组合起来,形成一个人类演示的形式。从中推断出完成任务的机器人的策略参数。

(2)领域自适应元学习

能够处理从人类的视频演示中学习,学习一组参数,以便在人类演示的基础上进行梯度下降后,模型可以有效地执行新任务。

由于人类和机器人的动作无法直接对应,因此考虑学习只对策略激活起作用。

(3)学习时间适应目标

要从人类的视频中进行学习,需要捕获视频中的相关信息,例如人类的意图和任务的相关对象。要确定哪些行为正在被演示,哪些对象是相关的,通常需要同时检查多个帧来确定人类的运动。因此本文的学习适应目标将多个时间步长耦合,从多个时间步骤对策略进行操作。

此处使用卷积网络来表示自适应目标,使用递归神经网络LSTM进行时间卷积。

(4)概率解释

将学习到的自适应目标纳入到概率图模型的框架中,推断特定任务的策略参数。

2.3 思考

思路看起来很可以,就是数学推理比较复杂,很难看得懂。

3 Waypoint-Based Imitation Learning for Robotic Manipulation

标题:基于航路点的机器人操纵模拟学习
作者团队:斯坦福大学
期刊会议:arXiv
时间:2023
代码https://github.com/lucys0/awe

3.1 目标问题

行为克隆BC目前有很多问题,路径点可以通过减少BC的范围来解决这个问题,但是传统路径点需要人工监督标注。

本文提出了线性运动近似的,模仿学习的自动轨迹点提取模块,将演示分解为一组轨迹点,进行线性插值,近似实现演示动作。

并且该方法可以与任务BC算法相结合,提高其成功率。

3.2 方法

3.3 思考