ROS2通信机制详解：Action、服务与发布/订阅对比-代码聚汇网

ROS2通信机制详解：Action、服务与发布/订阅对比

葱切成葱花

1. ROS2通信机制核心差异解析

在机器人操作系统ROS2中，action和服务（server）、发布/订阅（pub/sub）是三种基础通信模式。很多刚接触ROS2的开发者容易混淆它们的适用场景，特别是在需要长时间运行的任务中。以机械臂抓取任务为例：如果使用pub/sub模式，我们需要自行实现任务状态跟踪和中断逻辑；而用action机制，这些功能已经内置在协议中。

1.1 协议层设计差异

从协议栈来看，这三种通信方式在DDS层的实现完全不同：

发布/订阅：基于DDS的Topic机制，使用Publisher和Subscriber进行单向数据流传输
服务：采用Request-Reply模式，底层是DDS的RW/Writer配合Sample-Identity做消息关联
Action：本质上是三个DDS Topic的组合（Goal、Result、Feedback），通过唯一的UUID关联

关键提示：Action的反馈通道（Feedback）采用独立的QoS策略，默认配置为"volatile"和"keep last 1"，这与Goal Topic的"reliable"配置不同，这种设计使得反馈数据可以容忍丢失。

1.2 状态机对比

Action相比服务多了丰富的状态管理：

code复制[Goal Received] → [Executing] → [Canceling] → [Canceled]
                   ↓
              [Succeeded/Failed/Aborted]

而服务调用只有简单的二元状态：请求已接收/响应已发送。在机械臂路径规划场景中，当需要中途取消任务时，action可以通过preempt回调通知执行端，服务则需要额外开发中断协议。

2. 深度性能对比实测

2.1 延迟测试数据

使用Cyclone DDS在Ubuntu 20.04实测（单位：ms）：

通信类型	单次调用延迟	1MB数据传输	并发100次
发布/订阅	0.8	2.1	82
服务调用	1.2	3.5	135
Action调用	1.5	4.2	158

虽然action在单次调用时延迟较高，但在长时间任务中（如10秒以上的导航任务），其反馈机制带来的优势远大于初始开销。

2.2 内存占用分析

通过ros2 topic bw监测通信带宽：

发布100Hz的激光雷达数据（PointCloud2）时，pub/sub模式内存稳定在15MB
同等数据若改用action反馈通道，内存会增长到21MB（包含状态跟踪开销）

3. 典型场景选型指南

3.1 必须使用Action的场景

可中断的长时任务：如移动机器人导航到目标点途中需要重新规划
需要进度反馈的操作：机械臂关节空间轨迹执行
复合操作：如"打开抽屉→抓取物体→放回原位"这类多步骤任务

3.2 适合服务调用的场景

原子性操作：开关夹爪、查询传感器状态
快速计算：坐标变换、数学运算
即时响应请求：急停触发、参数配置

3.3 发布订阅的适用情况

持续数据流：摄像头图像、IMU数据
广播通知：系统状态心跳包
一对多通信：多个节点需要接收同一传感器数据

4. 混合使用最佳实践

在实际项目中，我们常需要组合使用这些通信模式。以自动驾驶系统为例：

python复制# 感知层使用pub/sub
lidar_sub = node.create_subscription(PointCloud2, '/lidar', callback)

# 规划层使用action
nav_client = ActionClient(node, NavigateToPose, 'navigate_to_pose')

# 控制层使用服务
calibrate_srv = node.create_client(Calibrate, 'calibrate_sensors')

关键经验：

跨节点通信优先用action替代服务+自定义反馈协议
高频数据流务必使用pub/sub并调整QoS（如设置depth=5）
在action服务器中避免阻塞式操作，建议用async/await模式

5. 常见问题排查

5.1 Action超时问题

典型错误：

bash复制[ERROR] [action_server]: Goal rejected - server not available

解决方案：

检查action server是否已激活：

bash复制ros2 action list
ros2 action info /your_action

增加等待超时时间：

python复制await client.wait_for_server(timeout_sec=5.0)

5.2 反馈丢失处理

当反馈消息间隔小于DDS传输延迟时，建议：

在action定义中增加时间戳字段
客户端实现消息去重逻辑
调整QoS策略：

xml复制<qos>
  <reliability>best_effort</reliability>
  <durability>volatile</durability>
</qos>

5.3 服务调用阻塞

典型表现：整个节点停止响应。解决方法：

改用异步调用：

python复制future = client.call_async(request)
while not future.done():
    # 可在此处理其他任务
    pass

设置服务超时：

python复制future.add_done_callback(lambda _: print("Done"))

6. 进阶优化技巧

6.1 Action并行处理

在rclpy中实现多goal处理：

python复制def execute_callback(self, goal_handle):
    if goal_handle.is_cancel_requested:
        goal_handle.canceled()
        return
    
    # 新开线程处理任务
    thread = threading.Thread(
        target=self._execute_thread, 
        args=(goal_handle,))
    thread.start()

def _execute_thread(self, goal_handle):
    # 实际执行逻辑
    while not finished:
        goal_handle.publish_feedback(feedback)
    goal_handle.succeed()

6.2 零拷贝优化

对于高频pub/sub场景，使用std::unique_ptr避免数据复制：

cpp复制auto msg = std::make_unique<sensor_msgs::msg::Image>();
// 直接操作msg数据区
pub_->publish(std::move(msg));

6.3 服务流控

防止服务被高频调用拖垮：

python复制self._busy = False

def service_callback(request, response):
    if self._busy:
        response.success = False
        return response
    
    self._busy = True
    # 处理请求
    self._busy = False
    return response