二分查找高效求解两个有序数组的中位数

FoxNewsAI

1. 问题背景与核心挑战

中位数作为统计学中的核心概念，在数据处理和算法设计中扮演着重要角色。给定两个有序数组，如何高效找到它们合并后的中位数？这个问题看似简单，但要在O(log(m+n))时间复杂度内解决却需要精妙的算法设计。

常规的合并后取中位数方法虽然直观，但其O(m+n)的时间复杂度无法满足高效处理大规模数据的需求。我们需要一种更聪明的策略——利用数组已排序的特性，通过二分查找的思想直接定位中位数位置，避免完全合并的操作。

2. 算法设计思路解析

2.1 中位数的数学本质

中位数将一个有序数据集分为两个等长的部分（总长度为奇数时左半多一个元素）。对于两个有序数组，我们需要找到一种分割方式，使得：

左半部分包含(m+n+1)//2个元素
左半所有元素 ≤ 右半所有元素

这种分割可以通过在两个数组中各选择一个分割点来实现。设nums1的分割点为i，nums2的分割点为j，则需要满足：

i + j = (m + n + 1) // 2
nums1[i-1] <= nums2[j]
nums2[j-1] <= nums1[i]

2.2 二分查找的应用

由于数组有序，我们可以使用二分查找快速定位合适的分割点。具体步骤：

确保nums1是较短的数组（减少二分次数）
初始化二分边界left=0，right=m
计算中间分割点i
根据nums1[i-1]与nums2[j]的关系调整边界
重复直到找到最佳分割点

这种策略之所以能达到O(log(min(m,n)))的时间复杂度，是因为每次迭代都将搜索空间减半。

3. 算法实现细节剖析

3.1 边界条件处理

实际编码时需要特别注意各种边界情况：

当i=0时，nums1左半为空
当i=m时，nums1右半为空
类似处理j=0和j=n的情况

解决方案是引入极小值(-inf)和极大值(inf)作为哨兵值，确保比较操作始终有效。

3.2 中位数计算逻辑

找到正确的分割点后，中位数计算分为两种情况：

总长度奇数：中位数=max(nums1左半最大值, nums2左半最大值)
总长度偶数：中位数=(max(左半最大值) + min(右半最小值))/2

这种处理方式巧妙地避免了实际合并数组，直接通过比较几个关键值得到结果。

4. 代码实现与逐行解读

python复制class Solution:
    def findMedianSortedArrays(self, nums1: list[int], nums2: list[int]) -> float:
        # 确保nums1是较短的数组，减少二分次数
        if len(nums1) > len(nums2):
            nums1, nums2 = nums2, nums1
        
        m, n = len(nums1), len(nums2)
        total_left = (m + n + 1) // 2  # 左半部分的总长度
        
        # 二分查找的边界
        left, right = 0, m
        
        while left < right:
            i = left + (right - left + 1) // 2  # 取上中位数
            j = total_left - i
            
            # 调整二分边界
            if nums1[i-1] > nums2[j]:
                right = i - 1
            else:
                left = i
        
        i = left
        j = total_left - i
        
        # 处理边界情况
        nums1_left_max = nums1[i-1] if i > 0 else float('-inf')
        nums1_right_min = nums1[i] if i < m else float('inf')
        nums2_left_max = nums2[j-1] if j > 0 else float('-inf')
        nums2_right_min = nums2[j] if j < n else float('inf')
        
        # 计算中位数
        if (m + n) % 2 == 1:
            return max(nums1_left_max, nums2_left_max)
        else:
            return (max(nums1_left_max, nums2_left_max) + min(nums1_right_min, nums2_right_min)) / 2.0