字典序最小字符串的贪心算法与优化

sched yield

1. 问题背景与核心挑战

字典序最小字符串问题看似简单，实则暗藏玄机。给定一个由小写字母组成的字符串，我们可以进行任意次数的删除操作——每次选择至少出现两次的字符，删除其中的一个实例。我们的目标是找到通过这些操作能得到的字典序最小的字符串。

字典序比较的规则需要特别注意：从左到右逐字符比较，第一个不同字符决定了整个字符串的顺序。如果所有对应字符都相同，则较短的字符串被视为字典序更小。例如"aab" < "aac"，而"abc" < "abcd"。

这个问题的难点在于：

组合爆炸：每个重复字符都可能被删除或保留，导致可能的组合数量呈指数级增长
局部最优陷阱：简单的贪心策略（如总是删除当前最大的字符）可能无法得到全局最优解
高效性要求：字符串长度可达10^5，暴力枚举所有可能组合显然不可行

2. 算法设计思路解析

2.1 核心观察

关键洞察在于：字典序最小的字符串应该尽可能保留前面的小字符。这意味着：

我们应该优先保留前面的'a'、'b'等小字符
只有当保留某个字符会导致后面必须保留更大的字符时，才考虑删除它

2.2 二进制掩码策略

原解法采用了二进制掩码来表示删除操作，这是一个系统但不够高效的方案。让我们分析其核心步骤：

识别重复字符：统计每个字符的出现次数，筛选出出现≥2次的字符
位置索引记录：为每个重复字符记录其在字符串中的所有位置
生成删除组合：为每个重复字符生成所有可能的删除选择（包括不删除）
组合掩码：通过二进制或运算组合不同字符的删除选择
生成结果：应用掩码删除字符，去重后排序取最小

虽然这种方法能保证找到最优解，但对于长字符串（如10^5长度）会产生不可行的计算量。

2.3 更优的贪心策略

实际上，这个问题可以通过单调栈+贪心的方法更高效地解决。基本思路是：

维护一个结果栈和字符计数器
遍历字符串时，对于当前字符：
- 如果已经在结果中，跳过（因为不能重复）
- 否则，考虑是否可以弹出栈顶更大的字符（前提是后面还有该字符）
确保每个字符至少保留一个

这种方法的时间复杂度是O(n)，空间复杂度是O(1)（因为字母表大小固定）。

3. 实现细节与优化

3.1 原始二进制掩码实现

让我们深入分析原始代码的关键函数：

python复制def get_more_than_two_times_char_list(a):
    a = list(a)
    b = set(a)
    t = []
    for i in b:
        t.append([i, a.count(i)])
    d = list(i for i in t if i[1] >= 2)
    d.sort(key=lambda x: x[0])
    return d

这个函数统计每个字符的出现次数，筛选出重复字符。优化建议：

使用collections.Counter可以更高效
提前终止条件：如果没有重复字符，可以直接返回原字符串

3.2 组合生成优化

python复制def get_combination_index(a, b, n):
    t = []
    for i in a:
        for j in b:
            xi = int(i, 2)
            xj = int(j, 2)
            k = xi | xj
            x = bin(k)[2:]
            len_x = len(x)
            x = (n - len_x) * '0' + x
            t.append(x)
    return t

这个函数通过二进制或运算组合不同字符的删除选择。主要问题：

组合数量会爆炸式增长
对于k个重复字符，每个有m_i个删除选择，总组合数是∏m_i

3.3 更优的单调栈实现

以下是改进后的高效实现：

python复制def removeDuplicateLetters(s):
    from collections import defaultdict
    
    count = defaultdict(int)
    for ch in s:
        count[ch] += 1
    
    stack = []
    in_stack = set()
    
    for ch in s:
        count[ch] -= 1
        if ch in in_stack:
            continue
        
        while stack and ch < stack[-1] and count[stack[-1]] > 0:
            in_stack.remove(stack.pop())
        
        stack.append(ch)
        in_stack.add(ch)
    
    return ''.join(stack)

这个实现：

统计每个字符的剩余出现次数
使用栈构建结果，确保字典序最小
只有当后面还有相同字符时，才弹出栈顶更大的字符

4. 复杂度分析与对比

4.1 原始方法复杂度

设字符串长度n，重复字符数量k：

时间复杂度：O(k^n)（最坏情况）
空间复杂度：O(k^n)

显然无法处理大规模输入。

4.2 单调栈方法复杂度

时间复杂度：O(n)（每个字符最多进出栈一次）
空间复杂度：O(1)（字母表大小固定）

可以轻松处理10^5长度的字符串。

5. 边界条件与测试案例

5.1 典型测试案例

无重复字符：
- 输入："abc"
- 输出："abc"（无法删除）
全相同字符：
- 输入："aaaa"
- 输出："a"（删除到只剩一个）
需要策略性删除：
- 输入："cbacdcbc"
- 输出："acdb"（不是简单删除最大的）

5.2 特殊边界情况

空字符串：
- 虽然题目保证1<=n，但实现时应考虑
单字符：
- 输入："z"
- 输出："z"
所有字符相同：
- 输入："bbbbb"
- 输出："b"

6. 实际应用与扩展

6.1 实际应用场景

数据压缩：在保持语义的前提下最小化字符串表示
数据库索引优化：构建最小字典序的键
生物信息学：DNA序列处理

6.2 问题变种

最多删除k次：限制删除操作次数
加权删除：不同字符删除代价不同
保留顺序约束：要求保留字符的相对顺序

7. 经验总结与优化建议

7.1 原始方法的优缺点

优点：

系统全面，保证找到最优解
思路直观，易于理解

缺点：

无法处理大规模数据
实现复杂，容易出错

7.2 优化建议

避免暴力枚举：对于组合问题，寻找数学规律或贪心性质
利用数据结构：栈、堆等可以高效维护特定性质
提前终止：发现不可能更优时提前结束

7.3 调试技巧

小规模测试：先用简单案例验证基本逻辑
可视化调试：打印中间结果观察执行流程
边界检查：特别注意空串、单字符、全相同字符等情况

8. 完整优化代码实现

以下是经过优化的完整实现，包含详细注释：

python复制def smallestSubsequence(s):
    """
    返回删除重复字符后的字典序最小字符串
    :type s: str
    :rtype: str
    """
    from collections import defaultdict
    
    # 统计每个字符的剩余出现次数
    remaining = defaultdict(int)
    for ch in s:
        remaining[ch] += 1
    
    # 使用栈构建结果
    stack = []
    # 记录栈中已有字符
    in_stack = set()
    
    for ch in s:
        # 每处理一个字符，剩余计数减1
        remaining[ch] -= 1
        
        # 如果字符已在栈中，跳过
        if ch in in_stack:
            continue
        
        # 弹出栈顶比当前字符大且后面还会出现的字符
        while stack and ch < stack[-1] and remaining[stack[-1]] > 0:
            in_stack.remove(stack.pop())
        
        # 将当前字符入栈
        stack.append(ch)
        in_stack.add(ch)
    
    return ''.join(stack)