归并排序高效解决逆序对问题-代码聚汇网

归并排序高效解决逆序对问题

CarrieYung

1. 逆序对问题概述

逆序对（Inversion Pair）是算法领域中一个经典问题，它衡量了一个序列的无序程度。在金融交易分析、基因序列比对、推荐系统等实际场景中都有重要应用。简单来说，在一个数组中，如果存在下标 i < j 且 nums[i] > nums[j]，那么(i, j)就构成一个逆序对。

注意：逆序对统计的是"前面比后面大"的情况，这与常规的排序方向相反，这也是为什么它能反映序列的无序程度。

以数组 [3,1,2] 为例：

(3,1) 是一个逆序对
(3,2) 是另一个逆序对
(1,2) 不是逆序对
所以这个数组总共有2个逆序对。

2. 暴力解法与优化思路

2.1 暴力解法分析

最直观的解法是双重循环：

cpp复制int count = 0;
for(int i = 0; i < n; i++) {
    for(int j = i+1; j < n; j++) {
        if(nums[i] > nums[j]) count++;
    }
}

这种方法时间复杂度是O(n²)，对于大规模数据（如n=10⁵）时，计算量会达到10¹⁰次，完全不可行。

2.2 分治思想引入

归并排序天然适合解决这个问题，因为：

分治策略将问题分解为子问题
合并过程可以利用已排序子数组的性质
时间复杂度可以优化到O(nlogn)

关键突破点在于：在合并两个有序子数组时，可以高效统计跨越这两个子数组的逆序对。

3. 归并排序解法详解

3.1 算法框架搭建

首先建立基本的归并排序框架：

cpp复制class Solution {
    vector<int> tmp;
    int ret = 0;
public:
    int reversePairs(vector<int>& nums) {
        int n = nums.size();
        tmp.resize(n);
        mergeSort(nums, 0, n-1);
        return ret;
    }
    
    void mergeSort(vector<int>& nums, int left, int right) {
        if(left >= right) return;
        
        int mid = left + (right - left)/2;
        mergeSort(nums, left, mid);
        mergeSort(nums, mid+1, right);
        
        // 合并逻辑将在下面展开
    }
};

3.2 升序合并实现

在合并两个升序子数组时统计逆序对：

cpp复制int cur1 = left, cur2 = mid + 1, i = 0;
while(cur1 <= mid && cur2 <= right) {
    if(nums[cur1] <= nums[cur2]) {
        tmp[i++] = nums[cur1++];
    } else {
        ret += mid - cur1 + 1;  // 关键统计点
        tmp[i++] = nums[cur2++];
    }
}
// 处理剩余元素
while(cur1 <= mid) tmp[i++] = nums[cur1++];
while(cur2 <= right) tmp[i++] = nums[cur2++];
// 拷贝回原数组
for(int i = left; i <= right; i++) {
    nums[i] = tmp[i - left];
}

3.3 降序合并实现

同样可以用降序合并的方式统计：

cpp复制int cur1 = left, cur2 = mid + 1, i = 0;
while(cur1 <= mid && cur2 <= right) {
    if(nums[cur1] > nums[cur2]) {
        ret += right - cur2 + 1;  // 关键统计点
        tmp[i++] = nums[cur1++];
    } else {
        tmp[i++] = nums[cur2++];
    }
}
// 剩余元素处理和拷贝同上

4. 关键点深度解析

4.1 为什么能批量统计逆序对

以升序合并为例，当发现nums[cur1] > nums[cur2]时：

左子数组从cur1到mid的所有元素都 > nums[cur2]
因为这些子数组已经是升序排列的
所以可以一次性统计mid-cur1+1个逆序对

这种批量统计的能力使得算法复杂度从O(n²)降到了O(nlogn)。

4.2 临时数组的必要性

使用临时数组tmp有三大好处：

避免频繁内存分配，只需一次resize
保持原数组数据的完整性
合并过程可以安全地覆盖原数组区域

4.3 边界条件处理

特别注意几个边界：

递归终止条件：left >= right
中间点计算：mid = left + (right-left)/2 防止溢出
剩余元素处理：当一个子数组遍历完后，另一个的剩余元素直接追加

5. 复杂度分析与对比

5.1 时间复杂度

每次递归都将问题规模减半，合并过程是O(n)：
T(n) = 2T(n/2) + O(n)
根据主定理，时间复杂度为O(nlogn)

5.2 空间复杂度

需要额外O(n)空间存储临时数组，属于原地排序的变种。

5.3 与其他方法对比

方法	时间复杂度	空间复杂度	适用场景
暴力法	O(n²)	O(1)	小规模数据
归并法	O(nlogn)	O(n)	通用场景
树状数组	O(nlogn)	O(n)	动态查询

6. 实战技巧与常见问题

6.1 调试技巧

打印递归树：输出每次递归的left,mid,right值
可视化合并过程：打印每次合并前后的数组状态
检查逆序对累加点：确认统计时机的正确性

6.2 易错点警示

忘记处理剩余元素导致数据丢失
临时数组拷贝时索引计算错误
逆序对统计条件写反（>写成<）
全局变量ret没有正确初始化

6.3 性能优化建议

对小规模子数组改用插入排序
提前判断数组是否已经有序
使用迭代而非递归实现避免栈溢出

7. 扩展应用场景

7.1 金融交易分析

在股票交易中，逆序对可以反映价格异常波动：

大量逆序对可能预示市场不稳定
可用于检测异常交易行为

7.2 推荐系统评估

衡量推荐列表与用户实际偏好序列的差异：

逆序对越多，推荐准确度越低
可用于A/B测试推荐算法效果

7.3 基因序列比对

在生物信息学中：

比较基因序列的相似度
计算基因重组的最小操作次数

8. 代码实现完整示例

以下是经过工业级优化的完整实现：

cpp复制class Solution {
public:
    int reversePairs(vector<int>& nums) {
        vector<int> tmp(nums.size());
        return mergeSort(nums, tmp, 0, nums.size()-1);
    }
    
    int mergeSort(vector<int>& nums, vector<int>& tmp, int left, int right) {
        if(left >= right) return 0;
        
        int mid = left + (right - left)/2;
        int count = mergeSort(nums, tmp, left, mid) + 
                    mergeSort(nums, tmp, mid+1, right);
        
        // 提前判断是否已经有序
        if(nums[mid] <= nums[mid+1]) {
            return count;
        }
        
        // 合并过程
        int i = left, j = mid+1, k = left;
        while(i <= mid && j <= right) {
            if(nums[i] <= nums[j]) {
                tmp[k++] = nums[i++];
            } else {
                tmp[k++] = nums[j++];
                count += mid - i + 1;
            }
        }
        while(i <= mid) tmp[k++] = nums[i++];
        while(j <= right) tmp[k++] = nums[j++];
        
        // 仅拷贝合并区间
        copy(tmp.begin()+left, tmp.begin()+right+1, nums.begin()+left);
        return count;
    }
};

这个版本做了以下优化：

将ret改为返回值而非全局变量
添加了提前有序判断
更精确的数组拷贝范围
更好的变量命名

在实际编码面试中，建议先实现基础版本，再逐步添加优化，并解释每步优化的考虑。