H指数算法解析与优化实践

sylph mini

1. 问题背景与定义

H指数（H-index）是衡量科研人员学术产出的重要指标，由物理学家Jorge Hirsch在2005年提出。这个指标最初用于评估科学家的研究影响力，后来也被广泛应用于论文引用分析、社交媒体影响力评估等领域。

在力扣274题中，我们需要根据给定的论文引用次数数组，计算出研究人员的H指数。具体定义是：一个科学家的H指数是指他/她有h篇论文被引用了至少h次，且其他N-h篇论文每篇被引用次数不超过h次。

举个例子，如果某位学者的论文引用次数为[3,0,6,1,5]，那么他的H指数是3，因为有3篇论文（6,5,3）的引用次数≥3，剩下的2篇论文引用次数≤3。

2. 解题思路分析

2.1 暴力解法

最直观的解决方法是先对数组进行排序，然后从大到小遍历，找到第一个满足citations[i] < i+1的位置，此时的i就是H指数。

python复制def hIndex(citations):
    citations.sort(reverse=True)
    for i in range(len(citations)):
        if citations[i] < i+1:
            return i
    return len(citations)

这个解法的时间复杂度是O(nlogn)，主要消耗在排序步骤上。空间复杂度取决于排序算法的实现，通常是O(1)或O(n)。

2.2 计数排序优化

考虑到H指数的特性（最大不超过论文总数n），我们可以使用计数排序的思想进行优化：

创建一个长度为n+1的计数数组count
遍历原始数组，对于每篇论文：
- 如果引用次数≥n，则count[n]++
- 否则count[citations[i]]++
从后向前累加计数数组，找到第一个满足sum ≥ i的位置

python复制def hIndex(citations):
    n = len(citations)
    count = [0] * (n + 1)
    
    for c in citations:
        if c >= n:
            count[n] += 1
        else:
            count[c] += 1
    
    total = 0
    for i in range(n, -1, -1):
        total += count[i]
        if total >= i:
            return i
    return 0

这种方法的时间复杂度降低到O(n)，因为我们只需要两次遍历。空间复杂度是O(n)，用于存储计数数组。

3. 关键点解析

3.1 边界条件处理

在实际编码中，有几个边界情况需要特别注意：

空数组输入：应该返回0
所有论文引用次数都为0：返回0
所有论文引用次数都≥论文总数：返回n

提示：在面试中，主动讨论边界条件能展现你的全面思考能力。

3.2 算法选择考量

虽然计数排序法在理论上更优，但在实际应用中需要考虑：

当n很大时（如超过10^6），计数排序可能消耗较多内存
如果输入数据范围很大但稀疏，计数排序会浪费空间
对于小规模数据（n<1000），简单排序法可能更实用

4. 变种问题探讨

4.1 H指数II（力扣275题）

当输入数组已经按升序排列时，我们可以使用二分查找进一步优化：

python复制def hIndex(citations):
    n = len(citations)
    left, right = 0, n-1
    while left <= right:
        mid = left + (right-left)//2
        if citations[mid] >= n - mid:
            right = mid - 1
        else:
            left = mid + 1
    return n - left