DAG任务调度与关键路径算法详解-代码聚汇网

DAG任务调度与关键路径算法详解

哗啦啦的小流弊

1. 问题背景与核心需求

农场杂务调度问题是一个典型的有向无环图(DAG)任务排序问题。John的农场在挤奶前需要完成n项杂务，每项杂务有其执行时间和前置依赖关系。我们需要找到完成所有杂务的最短时间，允许无依赖关系的任务并行执行。

这个问题的实际意义不仅限于农场管理，它广泛存在于：

软件开发中的任务依赖管理
建筑工程中的工序安排
生产流水线的作业调度
课程学习的先后顺序规划

2. 问题建模与算法选择

2.1 图论模型构建

我们可以将这个问题建模为有向无环图：

每个杂务代表图中的一个节点
节点权重表示该杂务的执行时间
边A→B表示杂务B必须在杂务A完成后才能开始

对于样例输入：

code复制7
1 5 0
2 2 1 0
3 3 2 0
4 6 1 0
5 1 2 4 0
6 8 2 4 0
7 4 3 5 6 0

对应的图结构为：

code复制1(5)
├─2(2)
│  └─3(3)
│     └─7(4)
└─4(6)
   ├─5(1)
   │  └─7(4)
   └─6(8)
      └─7(4)

2.2 关键路径算法

这个问题本质上是求DAG中的最长路径（关键路径）。两种主流解法：

拓扑排序+动态规划：
- 时间复杂度：O(V+E)
- 空间复杂度：O(V+E)
- 适合大规模数据
递归记忆化搜索：
- 时间复杂度：O(V+E)
- 空间复杂度：O(V)
- 代码更简洁但递归深度受限

3. 拓扑排序解法详解

3.1 算法流程

初始化：
- 计算每个节点的入度
- 初始化每个节点的最早完成时间为其自身执行时间
- 将入度为0的节点加入队列
拓扑排序：
- 取出队首节点u
- 遍历u的所有邻接节点v：
  - 更新v的最早完成时间：earliest[v] = max(earliest[v], earliest[u] + time[v])
  - 将v的入度减1，若入度为0则入队
- 全局维护最大完成时间
输出结果：
- 所有节点完成时间的最大值即为答案

3.2 代码实现关键点

cpp复制#include<iostream>
#include<vector>
#include<queue>
using namespace std;

struct Edge {
    int toNode, nextEdge;
};

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);
    
    int n, a, b, c, ans = 0;
    cin >> n;
    
    vector<int> inDegree(n+1), taskTime(n+1), overTime(n+1);
    vector<int> head(n+1, -1);
    vector<Edge> edges(n*100); // 最大边数预估
    
    int cnt = 0;
    auto addEdge = [&](int u, int v) {
        edges[cnt] = {v, head[u]};
        head[u] = cnt++;
        inDegree[v]++;
    };
    
    for (int i = 1; i <= n; i++) {
        cin >> a >> b;
        taskTime[a] = overTime[a] = b;
        while (cin >> c, c) addEdge(c, a);
    }
    
    queue<int> q;
    for (int i = 1; i <= n; i++) {
        if (!inDegree[i]) q.push(i);
        ans = max(ans, overTime[i]);
    }
    
    while (!q.empty()) {
        int u = q.front(); q.pop();
        for (int i = head[u]; i != -1; i = edges[i].nextEdge) {
            int v = edges[i].toNode;
            overTime[v] = max(overTime[v], overTime[u] + taskTime[v]);
            ans = max(ans, overTime[v]);
            if (--inDegree[v] == 0) q.push(v);
        }
    }
    
    cout << ans;
    return 0;
}

3.3 复杂度分析

时间复杂度：O(n + m)，其中n是节点数，m是边数
空间复杂度：O(n + m)
实际运行效率：对于n=1e4，m=1e6的情况也能轻松处理

4. 递归记忆化解法

4.1 算法思想

对于每个任务，其最早完成时间等于所有前置任务的最早完成时间的最大值加上自身执行时间。可以通过递归+记忆化来避免重复计算。

4.2 代码实现

cpp复制#include<iostream>
#include<vector>
using namespace std;

vector<vector<int>> graph;
vector<int> timeCost, memo;

int dfs(int u) {
    if (memo[u]) return memo[u];
    int maxPre = 0;
    for (int v : graph[u]) 
        maxPre = max(maxPre, dfs(v));
    return memo[u] = maxPre + timeCost[u];
}

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);
    
    int n; cin >> n;
    graph.resize(n+1);
    timeCost.resize(n+1);
    memo.resize(n+1);
    
    for (int i = 1; i <= n; i++) {
        int a, t; cin >> a >> t;
        timeCost[a] = t;
        for (int c; cin >> c, c; ) 
            graph[a].push_back(c);
    }
    
    int ans = 0;
    for (int i = 1; i <= n; i++)
        ans = max(ans, dfs(i));
    
    cout << ans;
    return 0;
}

4.3 注意事项

必须使用记忆化存储中间结果，否则时间复杂度会退化为指数级
递归深度可能受栈空间限制，对于n>1e4的情况可能栈溢出
实际运行效率通常比拓扑排序稍慢

5. 算法对比与选择建议

特性	拓扑排序	递归记忆化
时间复杂度	O(n+m)	O(n+m)
空间复杂度	O(n+m)	O(n)
适用规模	超大(1e5+)	中等(1e4)
代码复杂度	中等	简单
额外优势	天然处理环检测	思路直观
推荐场景	生产环境	竞赛快速实现

对于大多数情况，推荐使用拓扑排序解法：

更稳定的性能
无递归深度限制
可以方便地扩展其他功能（如关键路径标记）

6. 常见问题与调试技巧

6.1 输入处理问题

问题现象：程序卡在输入循环或得到错误结果

解决方法：

确保正确读取结束标志0
验证任务编号是否连续且从1开始
使用调试输出打印每个任务的依赖关系

cpp复制// 调试输入示例
for (int i = 1; i <= n; i++) {
    int a, t; cin >> a >> t;
    cout << "Task " << a << " time=" << t << " deps:";
    for (int c; cin >> c, c; ) 
        cout << " " << c;
    cout << endl;
}

6.2 结果不正确

可能原因：

没有正确初始化每个任务的基准时间
更新依赖关系时取max的逻辑错误
没有正确处理并行任务的时间计算

验证方法：

手工计算小样例
添加过程输出：

cpp复制while (!q.empty()) {
    int u = q.front(); q.pop();
    cout << "Processing " << u << " current time=" << overTime[u] << endl;
    // ...原有循环体...
}

6.3 性能优化

当n很大时(>1e5)：

使用更紧凑的图存储方式（如前向星）
用数组替代vector可能获得更快速度
考虑并行化处理无依赖的任务批次

7. 算法扩展与应用

7.1 关键路径标记

在拓扑排序过程中，可以记录每个节点的关键前驱，最终反向追溯得到关键路径：

cpp复制vector<int> criticalPre(n+1);

// 在更新overTime时添加
if (overTime[v] < overTime[u] + taskTime[v]) {
    overTime[v] = overTime[u] + taskTime[v];
    criticalPre[v] = u;
}

// 输出关键路径
void printCriticalPath(int end) {
    if (end == 0) return;
    printCriticalPath(criticalPre[end]);
    cout << end << " ";
}

7.2 并行度分析

可以计算每个时间点正在执行的任务数量，帮助资源分配：

cpp复制vector<int> timeline(maxTime+2);

for (int u = 1; u <= n; u++) {
    int start = overTime[u] - taskTime[u];
    timeline[start]++;
    timeline[overTime[u]]--;
}

int maxWorkers = 0, current = 0;
for (int t = 0; t <= maxTime; t++) {
    current += timeline[t];
    maxWorkers = max(maxWorkers, current);
}

7.3 实际工程应用

在软件开发构建系统中，类似的算法被用于：

Makefile的依赖解析
Maven/Gradle的项目构建顺序
CI/CD流水线的阶段调度

理解这个基础算法有助于处理更复杂的任务调度场景，如：

资源受限的调度
带优先级的任务分配
动态依赖关系处理

这个看似简单的农场杂务问题，其实包含了任务调度领域的核心思想。掌握它能为解决更复杂的实际问题打下坚实基础。在实际编码时，建议先从小规模测试案例开始，逐步验证算法的正确性，再扩展到大规模数据。