异位词查找算法：滑动窗口与哈希计数优化

yao lifu

1. 问题理解与需求分析

异位词（Anagram）是指由相同字母重新排列形成的不同单词或短语。在这个问题中，我们需要在字符串s中找出所有与字符串p构成异位词的子串，并返回这些子串的起始索引。

关键点解析：

子串长度必须与p的长度相同
子串包含的字母种类和数量必须与p完全相同（顺序可以不同）
需要找出所有符合条件的子串，而不仅仅是第一个

示例验证：
以示例1为例：

s = "cbaebabacd", p = "abc"
长度为3的子串中，"cba"和"bac"都是"abc"的异位词
因此返回[0,6]

2. 基础解法：排序比较法

2.1 算法思路

最直观的解法是滑动窗口+排序比较：

先对p进行排序
在s上滑动一个长度为len(p)的窗口
对每个窗口内的子串进行排序
将排序后的子串与排序后的p比较
如果相同，则记录当前窗口起始索引

2.2 代码实现

cpp复制vector<int> findAnagrams(string s, string p) {
    vector<int> res;
    int wnd_size = p.size();
    if(wnd_size > s.size()) return res;
    
    sort(p.begin(), p.end());
    
    for(int i = 0; i <= s.size() - wnd_size; i++) {
        string temp = s.substr(i, wnd_size);
        sort(temp.begin(), temp.end());
        
        if(temp == p) {
            res.push_back(i);
        }
    }
    return res;
}

2.3 复杂度分析

时间复杂度：O(n*klogk)，其中n是s的长度，k是p的长度
- 排序p：O(klogk)
- 滑动窗口：O(n)次循环
- 每次窗口内排序：O(klogk)
空间复杂度：O(k)，用于存储临时子串

注意：这种方法在小规模数据上表现尚可，但当字符串较长时性能会显著下降，因为排序操作开销较大。

3. 优化解法：哈希计数法

3.1 算法思路

更高效的解法是使用哈希表记录字符出现次数：

统计p中每个字符的出现次数
在s上滑动一个长度为len(p)的窗口
统计窗口内字符的出现次数
比较两个计数是否相同
滑动窗口时只需更新两个字符的计数（移出窗口的字符和进入窗口的字符）

3.2 代码实现

cpp复制vector<int> findAnagrams(string s, string p) {
    vector<int> res;
    if(p.size() > s.size()) return res;
    
    vector<int> pCount(26, 0);
    vector<int> wndCount(26, 0);
    
    // 初始化计数
    for(int i = 0; i < p.size(); i++) {
        pCount[p[i]-'a']++;
        wndCount[s[i]-'a']++;
    }
    
    if(pCount == wndCount) res.push_back(0);
    
    // 滑动窗口
    for(int i = p.size(); i < s.size(); i++) {
        // 移出窗口的字符
        wndCount[s[i-p.size()]-'a']--;
        // 进入窗口的字符
        wndCount[s[i]-'a']++;
        
        if(wndCount == pCount) {
            res.push_back(i - p.size() + 1);
        }
    }
    
    return res;
}

3.3 复杂度分析

时间复杂度：O(n)，只需要线性扫描字符串
空间复杂度：O(1)，使用固定大小的计数数组（26个字母）

4. 边界条件与异常处理

在实际编码中需要考虑以下特殊情况：

p的长度大于s的长度：直接返回空结果
空字符串输入：根据题目要求处理
包含非字母字符：题目通常假设只有小写字母
大小写敏感：题目通常假设不区分大小写或明确说明

改进后的鲁棒性代码：

cpp复制vector<int> findAnagrams(string s, string p) {
    vector<int> res;
    if(p.empty() || s.empty() || p.size() > s.size()) 
        return res;
    
    // 统一转为小写（根据题目要求）
    transform(p.begin(), p.end(), p.begin(), ::tolower);
    transform(s.begin(), s.end(), s.begin(), ::tolower);
    
    vector<int> pCount(26, 0);
    vector<int> wndCount(26, 0);
    
    for(int i = 0; i < p.size(); i++) {
        if(!isalpha(p[i]) || !isalpha(s[i])) 
            return res; // 包含非字母字符
        pCount[p[i]-'a']++;
        wndCount[s[i]-'a']++;
    }
    
    if(pCount == wndCount) res.push_back(0);
    
    for(int i = p.size(); i < s.size(); i++) {
        if(!isalpha(s[i]) || !isalpha(s[i-p.size()])) 
            return res;
            
        wndCount[s[i-p.size()]-'a']--;
        wndCount[s[i]-'a']++;
        
        if(wndCount == pCount) {
            res.push_back(i - p.size() + 1);
        }
    }
    
    return res;
}