LeetCode 839题：并查集解决相似字符串组问题

ONE实验室

1. 问题背景与核心概念

LeetCode 839题"相似字符串组"是一个经典的并查集应用问题。题目给定一个字符串列表，要求我们找出其中互为"相似"字符串的组数。这里的"相似"定义为：两个字符串可以通过交换两个字符的位置变得相同（注意：交换次数仅限一次）。

这个问题在实际开发中有诸多应用场景，比如：

用户账号系统的相似用户名检测
文档相似性分析的预处理阶段
生物信息学中的基因序列比对

2. 问题分析与算法选择

2.1 相似性判断

首先我们需要明确如何判断两个字符串是否相似。根据题意：

如果两个字符串长度不同，直接判定为不相似
如果两个字符串完全相同，属于相似的特殊情况
统计两个字符串中不同字符的位置数量：
- 如果不同位置数量为0，属于相同字符串
- 如果不同位置数量为2，且这两个位置的字符交叉相等，则相似
- 其他情况均不相似

2.2 并查集数据结构

这个问题本质上是求图的连通分量个数，每个字符串是图中的一个节点，相似关系构成边。并查集(Union-Find)是解决这类问题的理想数据结构，因为它可以高效地：

查找某个元素所属的集合（Find）
合并两个集合（Union）
维护集合的连通性

并查集的典型实现包括路径压缩和按秩合并两种优化，可以将操作的时间复杂度降至接近常数级别。

3. 详细实现步骤

3.1 并查集实现

python复制class UnionFind:
    def __init__(self, size):
        self.parent = list(range(size))
        self.rank = [0] * size
    
    def find(self, x):
        if self.parent[x] != x:
            self.parent[x] = self.find(self.parent[x])  # 路径压缩
        return self.parent[x]
    
    def union(self, x, y):
        x_root = self.find(x)
        y_root = self.find(y)
        if x_root == y_root:
            return
        # 按秩合并
        if self.rank[x_root] < self.rank[y_root]:
            self.parent[x_root] = y_root
        else:
            self.parent[y_root] = x_root
            if self.rank[x_root] == self.rank[y_root]:
                self.rank[x_root] += 1

3.2 相似性检查函数

python复制def is_similar(a, b):
    if len(a) != len(b):
        return False
    diff = []
    for i in range(len(a)):
        if a[i] != b[i]:
            diff.append(i)
            if len(diff) > 2:
                return False
    return len(diff) == 0 or (len(diff) == 2 and a[diff[0]] == b[diff[1]] and a[diff[1]] == b[diff[0]])

3.3 主函数实现

python复制def numSimilarGroups(strs):
    n = len(strs)
    uf = UnionFind(n)
    
    for i in range(n):
        for j in range(i+1, n):
            if is_similar(strs[i], strs[j]):
                uf.union(i, j)
    
    # 统计连通分量个数
    groups = set()
    for i in range(n):
        groups.add(uf.find(i))
    
    return len(groups)

4. 复杂度分析与优化

4.1 时间复杂度

并查集操作：近似O(1)每次（经过路径压缩和按秩优化）
双重循环比较所有字符串对：O(n^2)
每次比较的最坏情况：O(L)，L为字符串长度
总时间复杂度：O(n^2 * L)

4.2 空间复杂度

并查集数据结构：O(n)
相似性检查的临时空间：O(1)
总空间复杂度：O(n)

4.3 可能的优化方向

预处理相同字符串：可以先统计完全相同的字符串，减少比较次数
早期终止：在相似性检查时，一旦发现超过2处不同即可提前返回
分组处理：可以先按字符串长度分组，不同长度的字符串无需比较

5. 常见问题与调试技巧

5.1 边界情况处理

空输入列表：应返回0
单元素列表：应返回1
所有字符串相同：应返回1
所有字符串都不相似：应返回n

5.2 调试技巧

打印并查集状态：在每次union操作后打印parent数组，观察合并过程
记录比较日志：记录哪些字符串对被判定为相似，验证判断逻辑
小规模测试：先用2-3个字符串的小例子验证基本逻辑

5.3 常见错误

忘记处理字符串完全相同的情况
相似性判断时没有检查字符交叉相等
并查集实现缺少路径压缩或按秩合并，导致性能问题
数组越界：确保所有索引访问都在合法范围内

6. 实际应用扩展

这个问题可以扩展应用到多个实际场景：

用户名相似性检测：防止用户注册过于相似的用户名
文档查重系统：识别经过微小修改的抄袭文档
基因序列分析：寻找具有相似结构的基因序列
拼写检查系统：提供相近单词的替换建议

在实际工程实现中，可能需要考虑：

大规模数据下的分布式处理
增量更新机制
自定义相似度阈值

7. 算法变种与相关题目

7.1 变种问题

扩展相似定义：允许更多次数的字符交换
加权相似度：给不同位置的差异赋予不同权重
动态查询：支持随时添加新字符串并查询当前组数

7.2 相关LeetCode题目

Number of Provinces (547)
Friend Circles (547)
Redundant Connection (684)
Accounts Merge (721)
Most Stones Removed with Same Row or Column (947)

8. 个人实现心得

在实际编码过程中，有几点特别值得注意：

并查集的路径压缩和按秩合并虽然看似简单，但对性能影响巨大。我曾经在一个1000字符串的测试用例上，未优化的版本超时，而优化后的版本仅需几百毫秒。
相似性判断函数的边界条件很容易遗漏。建议先写测试用例再实现函数，特别是要测试：
- 完全相同字符串
- 完全不相似字符串
- 仅两个字符不同的情况
- 多个字符不同但只有两个位置需要交换的情况
在LeetCode上提交时，Python的默认递归深度可能不够，可以考虑改用迭代实现的find函数：

python复制def find(self, x):
    while self.parent[x] != x:
        self.parent[x] = self.parent[self.parent[x]]  # 路径压缩
        x = self.parent[x]
    return x