MySQL窗口函数：分组统计与明细数据并存

Diane Lockhart

1. 窗口函数在MySQL分组场景下的核心价值

作为一名常年与数据库打交道的工程师，我发现在实际业务中经常遇到这样的需求：既要保留原始明细数据，又要同时计算分组统计值。传统GROUP BY虽然能实现分组聚合，但会丢失非分组字段的明细信息。这正是MySQL窗口函数大显身手的地方——它能在不减少结果集行数的前提下，为每一行数据附加分组计算结果。

举个例子，电商平台需要分析每个品类下商品的销量排名，同时保留商品原始信息；人力资源系统要计算各部门薪资分位数，又不影响员工明细展示。这类需求用窗口函数处理最为高效，一条SQL就能同时获取明细和统计结果，避免了多次查询或应用层计算的复杂度。

2. 窗口函数基础概念解析

2.1 窗口函数与普通聚合函数的本质区别

普通聚合函数（如SUM、AVG）会将多行数据压缩为一行统计结果，而窗口函数通过OVER()子句定义数据窗口，在保留原行数据的同时，对窗口范围内的数据进行计算。这就好比在Excel表格中插入一列公式，既能看到原始数据，又能看到计算结果。

窗口函数执行时分为三个关键阶段：

先执行FROM和WHERE子句获取基础数据
然后按照OVER()指定的窗口进行分区计算
最后才处理SELECT其他部分和ORDER BY

2.2 MySQL支持的窗口函数类型

MySQL 8.0+主要支持三类窗口函数：

聚合类窗口函数：SUM() OVER()、AVG() OVER()等
排名类窗口函数：ROW_NUMBER()、RANK()、DENSE_RANK()等
分析类窗口函数：LAG()、LEAD()、FIRST_VALUE()等

注意：MySQL 5.7及以下版本不支持窗口函数，这是很多开发者容易忽略的版本兼容性问题。升级到8.0+才能使用完整功能。

3. 窗口函数分组实战详解

3.1 基础分组聚合示例

假设有销售表sales_data(product_id, category, sale_date, amount)，我们需要计算每个品类下的销售总额，同时保留每条销售记录：

sql复制SELECT 
    product_id,
    category,
    sale_date,
    amount,
    SUM(amount) OVER(PARTITION BY category) AS category_total
FROM 
    sales_data;

这个查询会在每行销售记录后增加一列，显示该商品所属品类的销售总和。PARTITION BY的作用类似于GROUP BY的分组，但不会合并行。

3.2 多维度分组计算

窗口函数支持多重分区，比如要同时按品类和年份分组：

sql复制SELECT 
    product_id,
    category,
    YEAR(sale_date) AS sale_year,
    amount,
    SUM(amount) OVER(PARTITION BY category, YEAR(sale_date)) AS yearly_category_total
FROM 
    sales_data;

3.3 分组排名典型场景

计算每个品类内商品销售额排名（经典TOP N分析）：

sql复制SELECT 
    product_id,
    category,
    amount,
    RANK() OVER(PARTITION BY category ORDER BY amount DESC) AS sales_rank
FROM 
    sales_data;

这里使用了RANK()函数，当出现相同销售额时会跳过后续名次。如果需要连续排名，应该改用DENSE_RANK()。

4. 高级窗口帧技术

4.1 自定义窗口范围

通过FRAME子句可以定义更精细的计算范围。例如计算移动平均：

sql复制SELECT 
    date,
    amount,
    AVG(amount) OVER(
        PARTITION BY product_id 
        ORDER BY date 
        ROWS BETWEEN 2 PRECEDING AND CURRENT ROW
    ) AS moving_avg
FROM 
    daily_sales;

这个查询会计算每个产品最近3天（当天+前2天）的销售均值。ROWS BETWEEN定义了窗口包含的行范围。

4.2 累计求和模式

计算品类内销售额的累计占比：

sql复制SELECT 
    product_id,
    category,
    amount,
    SUM(amount) OVER(PARTITION BY category ORDER BY sale_date) AS running_total,
    SUM(amount) OVER(PARTITION BY category) AS category_total,
    ROUND(SUM(amount) OVER(PARTITION BY category ORDER BY sale_date) / 
          SUM(amount) OVER(PARTITION BY category) * 100, 2) AS percentage
FROM 
    sales_data;

5. 性能优化实践

5.1 索引设计策略

窗口函数性能依赖于PARTITION BY和ORDER BY的字段：

为常用分区键创建复合索引
排序字段尽量使用索引列
大数据集考虑使用覆盖索引

例如对于前面的销售分析，最佳索引可能是：

sql复制CREATE INDEX idx_category_date ON sales_data(category, sale_date);

5.2 执行计划分析

使用EXPLAIN查看窗口函数查询计划，重点关注：

是否使用了正确的索引
是否有临时表或文件排序
窗口函数是否导致全表扫描

5.3 分页查询优化

窗口函数与LIMIT配合时要注意执行顺序。优化方案：

sql复制-- 先计算再分页（推荐）
SELECT * FROM (
    SELECT 
        product_id,
        ROW_NUMBER() OVER(ORDER BY sales DESC) AS rn
    FROM products
) t WHERE rn BETWEEN 11 AND 20;

6. 常见问题解决方案

6.1 重复计算问题

当多个窗口函数使用相同分区时，可以使用WINDOW子句复用定义：

sql复制SELECT 
    product_id,
    SUM(amount) OVER w AS total_sales,
    AVG(amount) OVER w AS avg_sales
FROM 
    sales_data
WINDOW w AS (PARTITION BY category);

6.2 NULL值处理技巧

窗口函数中NULL值的处理方式：

聚合函数通常忽略NULL
排名函数将NULL视为最小值
使用COALESCE()或IFNULL()预处理

6.3 内存不足应对

大型窗口计算可能消耗大量内存，解决方案：

增加sort_buffer_size系统变量
分批次处理数据
考虑使用物化视图预计算

7. 真实业务场景案例

7.1 电商场景：品类销售漏斗分析

sql复制SELECT 
    user_id,
    category,
    COUNT(*) OVER(PARTITION BY user_id ORDER BY event_time) AS step,
    FIRST_VALUE(product_id) OVER(PARTITION BY user_id, category ORDER BY event_time) AS first_product
FROM 
    user_events
WHERE 
    event_type = 'view';

7.2 金融场景：账户余额变化分析

sql复制SELECT 
    account_id,
    transaction_date,
    amount,
    SUM(amount) OVER(PARTITION BY account_id ORDER BY transaction_date) AS balance,
    LAG(amount, 1) OVER(PARTITION BY account_id ORDER BY transaction_date) AS prev_amount
FROM 
    transactions;

7.3 游戏场景：玩家活跃度排名

sql复制SELECT 
    player_id,
    login_date,
    DENSE_RANK() OVER(PARTITION BY DATE_FORMAT(login_date, '%Y-%m') ORDER BY login_count DESC) AS activity_rank
FROM 
    daily_player_stats;