想象一下让机器人完成系鞋带这样的精细动作有多难——这需要同时处理柔软易变的鞋带材料、精确到毫米级的空间定位、多步骤连贯操作,以及双手的完美协同。传统机器人控制方法在这种场景下往往捉襟见肘,而ALOHA 2研究团队给出的解决方案令人眼前一亮:扩散策略+Transformer这对黄金组合。
扩散策略最初源自图像生成领域,其核心思想是通过逐步去噪的过程生成高质量输出。当这个思路被移植到机器人控制时,神奇的事情发生了:机器人动作轨迹的生成就像画家作画一样,从粗糙的轮廓开始,经过多次迭代逐渐细化。在齿轮插入任务中,这种特性表现得尤为明显——初始动作可能偏差几毫米,但经过50步去噪 refinement 后,最终能达到0.5mm的插入精度。
与传统的L1回归损失相比,扩散策略在三个方面展现出独特优势:
实测数据显示,在最具挑战性的ShirtMessy任务中,扩散策略成功率(70%)是传统方法(25%)的近3倍。这种优势在接触动力学复杂的场景(如齿轮啮合)中更为显著。
ALOHA 2的Transformer设计暗藏玄机。与常见的视觉-语言模型不同,这里的Transformer需要处理多模态时空数据:4路摄像头视频流(15fps)、机械臂关节角度、夹持器状态,以及扩散过程中的噪声预测。研究团队对标准Transformer进行了三项关键改造:
视觉编码器升级版:
python复制# 多视角视觉特征提取
class MultiViewEncoder(nn.Module):
def __init__(self):
super().__init__()
self.backbones = nn.ModuleList([ResNet50() for _ in range(4)]) # 4个独立编码器
def forward(self, imgs): # imgs: [B,4,3,H,W]
features = [backbone(img) for backbone, img in zip(self.backbones, imgs)]
return torch.cat(features, dim=1) # 拼接多视角特征
时空位置编码创新:
双Transformer分工协作:
这种设计使得模型在RTX 4090上仅需43ms就能完成一次50步的动作规划,满足实时控制需求。有趣的是,当研究人员将模型参数量从217M压缩到150M时,齿轮插入任务的精度只下降了12%,显示出架构的鲁棒性。
26,000次真实演示的背后,是研究团队设计的标准化采集协议。以系鞋带任务为例,协议详细规定了:
但真正值得借鉴的是他们处理"脏数据"的方法:
多样性注入技巧:
数据过滤实验揭示了一个反直觉现象:完全剔除"不完美演示"反而会降低模型性能。在ShirtEasy任务中,保留25%最短(最精确)演示的模型成功率(40%)反而比保留50%的版本(55%)更低。这说明适度的噪声就像疫苗,能增强策略的鲁棒性。
ALOHA 2系统有几个容易被忽视却至关重要的设计选择:
动作分块机制:
多视角视觉融合:
| 摄像头位置 | 分辨率 | 视角优势 |
|---|---|---|
| 左腕部 | 640x480 | 近距离精细操作 |
| 右腕部 | 640x480 | 另一侧补偿视角 |
| 顶部俯视 | 1280x720 | 全局场景感知 |
| 正面斜视 | 1280x720 | 深度信息捕捉 |
硬件容错设计:
这些设计使得在更换机器人手指这类需要毫米级精度的任务中,即使使用未校准的低成本硬件(单台ALOHA 2成本约2万美元),也能达到90%以上的成功率。相比之下,传统方法需要价格高一个数量级的精密设备才能达到类似效果。
ALOHA 2策略展现出令人惊喜的泛化能力。在未参与训练的灰色长袖衬衫上,悬挂成功率仍保持在65%以上。分析发现这种泛化能力源自:
视觉表征的抽象能力:
本体感知的适应性:
不过当前系统仍存在明显局限。当衬衫完全翻转(正面朝下)时,成功率骤降至10%以下——因为训练数据中缺乏这种极端情况。这引出一个深刻洞见:数据多样性比数据量更重要。研究团队发现,增加1000种不同的衬衫摆放方式,比增加10000次标准摆放的演示更能提升泛化性能。
虽然ALOHA 2已经取得突破性进展,但从实际应用角度看还有很大提升空间。根据我们的工程实践,下一代系统可能需要:
混合训练策略:
模块化架构设计:
计算-感知协同优化:
在齿轮组装任务中,我们尝试将扩散步数从50降到25,发现推理速度提升2.1倍而精度仅损失8%,这显示算法还有很大优化空间。毕竟在工业场景中,200ms的决策延迟和50ms的延迟可能就意味着能否抓住转瞬即逝的装配机会。