哈希算法实战：LeetCode三题解析与优化技巧-代码聚汇网

哈希算法实战：LeetCode三题解析与优化技巧

Huigr王

1. 哈希算法基础与解题思路

哈希表作为数据结构课程中的核心内容，在实际算法问题中展现出惊人的威力。最近在刷LeetCode时，我连续遇到三道可以用哈希思想巧妙解决的问题，记录下解题过程中的关键思考。

哈希算法的本质是建立key到value的映射关系，其核心优势在于O(1)时间复杂度的查询效率。在实际编码中，我们常用字典(dict)或集合(set)来实现哈希结构。但要注意，哈希冲突处理、负载因子控制等细节会直接影响算法性能。

提示：Python中collections模块的defaultdict和Counter类能显著简化哈希相关操作的代码量

2. 第一题：两数之和（#1）

2.1 问题重述

给定整数数组nums和目标值target，找出和为target的两个数的下标。假设每个输入只有一种解，且同一元素不能重复使用。

2.2 暴力解法分析

最直观的解法是双重循环遍历所有组合：

python复制for i in range(len(nums)):
    for j in range(i+1, len(nums)):
        if nums[i] + nums[j] == target:
            return [i, j]

时间复杂度O(n²)，空间复杂度O(1)。当n较大时（如10⁵），这种解法会超时。

2.3 哈希优化方案

使用哈希表存储已遍历元素的值和索引：

python复制hashmap = {}
for i, num in enumerate(nums):
    complement = target - num
    if complement in hashmap:
        return [hashmap[complement], i]
    hashmap[num] = i

时间复杂度降至O(n)，空间复杂度O(n)。实测在LeetCode上运行时间从4000ms+降到40ms左右。

2.4 边界情况处理

负数参与运算：哈希表能正常处理
多个解的情况：题目保证唯一解
空数组输入：题目保证非空

3. 第二题：字母异位词分组（#49）

3.1 问题理解

给定字符串数组，将字母异位词（如"eat"和"tea"）组合在一起。输出顺序不限。

3.2 关键思路

字母异位词的特征是排序后字符串相同，可以用排序结果作为哈希键：

python复制from collections import defaultdict

def groupAnagrams(strs):
    ans = defaultdict(list)
    for s in strs:
        key = tuple(sorted(s))
        ans[key].append(s)
    return list(ans.values())

3.3 复杂度分析

设n为字符串数量，k为最长字符串长度：

时间复杂度：O(nklogk)（排序主导）
空间复杂度：O(nk)（存储所有字符串）

3.4 优化方向

对于大规模数据，可以考虑用字符计数作为键：

python复制def groupAnagrams(strs):
    ans = defaultdict(list)
    for s in strs:
        count = [0] * 26
        for c in s:
            count[ord(c) - ord('a')] += 1
        ans[tuple(count)].append(s)
    return list(ans.values())

时间复杂度优化为O(nk)，适合k较大的场景。

4. 第三题：最长连续序列（#128）

4.1 问题描述

给定未排序整数数组，找出最长连续元素序列的长度。要求算法时间复杂度O(n)。

4.2 哈希解法

利用集合去重并实现O(1)查询：

python复制def longestConsecutive(nums):
    num_set = set(nums)
    max_streak = 0
    
    for num in num_set:
        if num - 1 not in num_set:  # 确保从序列起点开始
            current_num = num
            current_streak = 1
            
            while current_num + 1 in num_set:
                current_num += 1
                current_streak += 1
                
            max_streak = max(max_streak, current_streak)
    
    return max_streak

4.3 算法正确性证明

每个元素最多被访问两次（作为序列起点和中间节点）
通过检查num-1确保只从序列起点开始计数
时间复杂度严格O(n)，空间复杂度O(n)

4.4 测试用例验证

python复制assert longestConsecutive([100,4,200,1,3,2]) == 4  # 1-2-3-4
assert longestConsecutive([0,3,7,2,5,8,4,6,0,1]) == 9  # 0-1-...-8

5. 哈希技巧总结

5.1 常用场景识别

需要快速查找/去重
涉及元素频率统计
需要建立映射关系
处理前缀和类问题

5.2 Python实现选择

需求场景	推荐实现	特点
普通键值存储	dict	内置类型，性能最优
默认值处理	defaultdict	自动初始化缺失键
频率统计	Counter	提供most_common等便捷方法
去重查询	set	基于哈希实现的高效集合

5.3 性能优化要点

合理预估数据规模，设置初始容量减少rehash
复杂对象作为键时，确保实现__hash__和__eq__
注意哈希冲突对性能的影响，必要时调整哈希函数
大数据场景考虑内存占用，可用布隆过滤器等概率结构

在实际工程中，我习惯先用暴力解法理清思路，再分析如何用哈希优化。对于动态维护的场景（如流数据），可能需要结合LRU等缓存策略。哈希虽强大，但也要注意其空间开销和哈希函数设计的合理性。