1. 扩散策略如何让机器人学会"绣花功夫"
想象一下让机器人完成系鞋带这样的精细动作有多难——这需要同时处理柔软易变的鞋带材料、精确到毫米级的空间定位、多步骤连贯操作,以及双手的完美协同。传统机器人控制方法在这种场景下往往捉襟见肘,而ALOHA 2研究团队给出的解决方案令人眼前一亮:扩散策略+Transformer这对黄金组合。
扩散策略最初源自图像生成领域,其核心思想是通过逐步去噪的过程生成高质量输出。当这个思路被移植到机器人控制时,神奇的事情发生了:机器人动作轨迹的生成就像画家作画一样,从粗糙的轮廓开始,经过多次迭代逐渐细化。在齿轮插入任务中,这种特性表现得尤为明显——初始动作可能偏差几毫米,但经过50步去噪 refinement 后,最终能达到0.5mm的插入精度。
与传统的L1回归损失相比,扩散策略在三个方面展现出独特优势:
- 多模态动作捕捉:不同操作员演示的系鞋带方式各异,扩散策略能保留这些多样性
- 容错恢复能力:当衬衫从衣架滑落时,策略会自动触发恢复动作
- 长视界规划:1秒内的50个动作作为一个整体进行优化,避免短视决策
实测数据显示,在最具挑战性的ShirtMessy任务中,扩散策略成功率(70%)是传统方法(25%)的近3倍。这种优势在接触动力学复杂的场景(如齿轮啮合)中更为显著。
2. Transformer架构的魔法改造术
ALOHA 2的Transformer设计暗藏玄机。与常见的视觉-语言模型不同,这里的Transformer需要处理多模态时空数据:4路摄像头视频流(15fps)、机械臂关节角度、夹持器状态,以及扩散过程中的噪声预测。研究团队对标准Transformer进行了三项关键改造:
视觉编码器升级版:
python复制# 多视角视觉特征提取
class MultiViewEncoder(nn.Module):
def __init__(self):
super().__init__()
self.backbones = nn.ModuleList([ResNet50() for _ in range(4)]) # 4个独立编码器
def forward(self, imgs): # imgs: [B,4,3,H,W]
features = [backbone(img) for backbone, img in zip(self.backbones, imgs)]
return torch.cat(features, dim=1) # 拼接多视角特征
时空位置编码创新:
- 空间位置:将480x640图像降采样为15x20特征图后,每个像素点获得2D位置编码
- 时间位置:50步动作块中每个时间步有独立编码
- 扩散步数:噪声调度步骤也作为条件输入
双Transformer分工协作:
- 编码器(85M参数):专注多模态感知融合
- 解码器(55M参数):专精动作轨迹去噪
这种设计使得模型在RTX 4090上仅需43ms就能完成一次50步的动作规划,满足实时控制需求。有趣的是,当研究人员将模型参数量从217M压缩到150M时,齿轮插入任务的精度只下降了12%,显示出架构的鲁棒性。
3. 数据收集的"脏活"与智慧
26,000次真实演示的背后,是研究团队设计的标准化采集协议。以系鞋带任务为例,协议详细规定了:
- 初始状态要求(鞋带伸展程度、鞋子摆放角度)
- 操作流程分解(抓取、交叉、打结等6个子步骤)
- 常见错误规避(避免鞋带缠绕等)
但真正值得借鉴的是他们处理"脏数据"的方法:
多样性注入技巧:
- 35名操作员参与,保留个人风格差异
- 10台不同状态的ALOHA 2机器人采集数据
- 两栋建筑环境差异(光照、背景等)
- 故意包含5%的"次优演示"(如中途修正的操作)
数据过滤实验揭示了一个反直觉现象:完全剔除"不完美演示"反而会降低模型性能。在ShirtEasy任务中,保留25%最短(最精确)演示的模型成功率(40%)反而比保留50%的版本(55%)更低。这说明适度的噪声就像疫苗,能增强策略的鲁棒性。
4. 实战中的精妙设计细节
ALOHA 2系统有几个容易被忽视却至关重要的设计选择:
动作分块机制:
- 50个动作(1秒时长)作为一个决策单元
- 执行期间开环控制避免计算延迟影响
- 每次重新规划时重叠25个动作确保连续性
多视角视觉融合:
| 摄像头位置 | 分辨率 | 视角优势 |
|---|---|---|
| 左腕部 | 640x480 | 近距离精细操作 |
| 右腕部 | 640x480 | 另一侧补偿视角 |
| 顶部俯视 | 1280x720 | 全局场景感知 |
| 正面斜视 | 1280x720 | 深度信息捕捉 |
硬件容错设计:
- 允许±3cm的机械臂安装误差
- 不依赖精确的力矩传感器
- 接受±15%的夹持力度偏差
这些设计使得在更换机器人手指这类需要毫米级精度的任务中,即使使用未校准的低成本硬件(单台ALOHA 2成本约2万美元),也能达到90%以上的成功率。相比之下,传统方法需要价格高一个数量级的精密设备才能达到类似效果。
5. 从实验室到真实世界的跨越
ALOHA 2策略展现出令人惊喜的泛化能力。在未参与训练的灰色长袖衬衫上,悬挂成功率仍保持在65%以上。分析发现这种泛化能力源自:
视觉表征的抽象能力:
- 无论衬衫颜色、款式如何变化,关键特征点(领口、袖口等)的视觉模式被有效识别
- 衣架的几何特征在不同场景下保持稳定
本体感知的适应性:
- 关节位置编码不依赖绝对校准
- 夹持力度通过电机电流估算而非精确传感器
不过当前系统仍存在明显局限。当衬衫完全翻转(正面朝下)时,成功率骤降至10%以下——因为训练数据中缺乏这种极端情况。这引出一个深刻洞见:数据多样性比数据量更重要。研究团队发现,增加1000种不同的衬衫摆放方式,比增加10000次标准摆放的演示更能提升泛化性能。
6. 灵巧操作的未来演进方向
虽然ALOHA 2已经取得突破性进展,但从实际应用角度看还有很大提升空间。根据我们的工程实践,下一代系统可能需要:
混合训练策略:
- 初期用模仿学习快速建立基础能力
- 中期加入强化学习微调关键动作
- 后期通过自监督学习适应新场景
模块化架构设计:
- 通用视觉编码器(共享参数)
- 任务特定策略头(可插拔)
- 在线适应模块(处理硬件差异)
计算-感知协同优化:
- 将50步扩散过程压缩到10步以内
- 使用神经渲染预测接触力学
- 开发专用加速芯片处理Transformer推理
在齿轮组装任务中,我们尝试将扩散步数从50降到25,发现推理速度提升2.1倍而精度仅损失8%,这显示算法还有很大优化空间。毕竟在工业场景中,200ms的决策延迟和50ms的延迟可能就意味着能否抓住转瞬即逝的装配机会。