MySQL窗口函数：高效分组统计与行级分析

孙建华2008

1. 窗口函数在MySQL分组场景下的核心价值

作为一名常年与MySQL打交道的数据库工程师，我发现在实际业务中经常遇到这样的困境：我们需要对数据进行分组统计，但同时又需要保留原始行的明细信息。传统的GROUP BY虽然能实现分组聚合，却会丢失行级细节。直到窗口函数（Window Functions）的出现，才真正解决了这个痛点。

窗口函数是MySQL 8.0引入的重大特性，它允许我们在不减少结果集行数的情况下，对数据的"窗口"进行计算。这个"窗口"由OVER子句定义，可以理解为当前行相关的一个数据子集。与聚合函数不同，窗口函数不会将多行合并为单行，而是为每行返回一个计算值。

关键区别：GROUP BY是"折叠式"聚合，窗口函数是"透视式"聚合。前者像把数据压缩成摘要，后者像给原始数据添加了统计标注。

在实际项目中，窗口函数特别适合以下场景：

计算每行数据在其分组中的排名（如部门内员工薪资排名）
计算累计值（如月度销售额的年度累计）
获取分组内的极值（如找出每个品类最贵的产品）
计算移动平均值（如近7天的用户活跃数）

2. 窗口函数核心语法解析

2.1 基础语法结构

窗口函数的标准语法包含三个关键部分：

sql复制SELECT 
    窗口函数() OVER (
        [PARTITION BY 分组字段]
        [ORDER BY 排序字段]
        [frame_clause]
    ) 
FROM 表名

其中：

PARTITION BY：定义分组规则，相当于GROUP BY的分组逻辑
ORDER BY：确定窗口内数据的排序方式，影响排名类函数的结果
frame_clause：定义窗口框架，即当前行对应的数据范围

2.2 常用窗口函数分类

MySQL支持的窗口函数主要分为几类：

排序函数
- ROW_NUMBER(): 连续不重复的序号(1,2,3...)
- RANK(): 并列排名会跳过后续序号(1,2,2,4...)
- DENSE_RANK(): 并列排名不跳号(1,2,2,3...)
聚合函数
- SUM()/AVG()/COUNT()等常规聚合函数的窗口用法
分布函数
- PERCENT_RANK(): 计算百分比排名
- CUME_DIST(): 计算累积分布
前后行函数
- LAG(): 访问前一行的值
- LEAD(): 访问后一行的值
- FIRST_VALUE(): 窗口第一行的值
- LAST_VALUE(): 窗口最后一行的值

2.3 窗口框架详解

窗口框架(frame_clause)决定了函数计算时考虑的数据范围，语法为：

sql复制{ROWS | RANGE} BETWEEN frame_start AND frame_end

常用框架定义：

ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING：当前行及前后各一行
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW：从开始到当前行(累计计算)
RANGE BETWEEN INTERVAL 7 DAY PRECEDING AND CURRENT ROW：最近7天的数据

3. 实战：典型分组场景解决方案

3.1 部门薪资分析案例

假设有员工表employees(dept_id, emp_name, salary)，我们需要：

计算每个部门的人数、平均薪资
列出每个员工及其部门排名
比较员工薪资与部门平均的差异

sql复制SELECT 
    dept_id,
    emp_name,
    salary,
    -- 部门内薪资排名
    RANK() OVER (PARTITION BY dept_id ORDER BY salary DESC) AS dept_rank,
    -- 部门平均薪资
    AVG(salary) OVER (PARTITION BY dept_id) AS dept_avg_salary,
    -- 薪资与部门平均的差异
    salary - AVG(salary) OVER (PARTITION BY dept_id) AS diff_from_avg,
    -- 部门人数
    COUNT(*) OVER (PARTITION BY dept_id) AS dept_count
FROM employees
ORDER BY dept_id, dept_rank;

注意：窗口函数执行顺序在WHERE、GROUP BY之后，在ORDER BY之前。不能在WHERE中直接使用窗口函数结果。

3.2 销售数据累计计算

对于销售表sales(sale_date, amount)，计算：

每日销售额
月度累计销售额
当月日均销售额对比

sql复制SELECT 
    sale_date,
    amount AS daily_sales,
    SUM(amount) OVER (
        PARTITION BY YEAR(sale_date), MONTH(sale_date)
        ORDER BY sale_date
        ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
    ) AS monthly_cumulative,
    AVG(amount) OVER (
        PARTITION BY YEAR(sale_date), MONTH(sale_date)
    ) AS monthly_daily_avg,
    amount - AVG(amount) OVER (
        PARTITION BY YEAR(sale_date), MONTH(sale_date)
    ) AS diff_from_avg
FROM sales
ORDER BY sale_date;

3.3 产品品类排名分析

商品表products(category, product_name, price)，找出：

每个品类最贵的三款产品
产品价格在品类中的百分位

sql复制WITH ranked_products AS (
    SELECT 
        category,
        product_name,
        price,
        ROW_NUMBER() OVER (PARTITION BY category ORDER BY price DESC) AS price_rank,
        PERCENT_RANK() OVER (PARTITION BY category ORDER BY price) AS price_percentile
    FROM products
)
SELECT * FROM ranked_products
WHERE price_rank <= 3
ORDER BY category, price_rank;

4. 性能优化与常见问题

4.1 窗口函数性能陷阱

虽然窗口功能强大，但不当使用会导致性能问题：

全表排序开销：当PARTITION BY和ORDER BY字段没有合适索引时，会导致全表扫描和排序
- 解决方案：为常用分组和排序字段创建复合索引
内存消耗：大型窗口会消耗大量内存
- 优化方法：合理设置窗口框架，避免UNBOUNDED PRECEDING等大范围定义

执行计划检查：使用EXPLAIN查看是否使用了索引

sql复制EXPLAIN SELECT 
    id,
    ROW_NUMBER() OVER (ORDER BY create_time) 
FROM orders;

4.2 典型错误排查

MySQL版本兼容性
- 错误：窗口函数在MySQL 5.7及以下版本不可用
- 验证：SELECT @@version;确认版本≥8.0
语法错误
- 常见错误：忘记OVER关键字
- 错误示例：SELECT ROW_NUMBER() PARTITION BY dept_id...
框架定义问题
- ROWS与RANGE混淆：ROWS按物理行，RANGE按逻辑值
- 错误示例：RANGE BETWEEN 1 PRECEDING...（需指定数值单位）

4.3 替代方案对比

当窗口函数不可用时，可考虑以下替代方案（但都有局限性）：

方案	实现方式	缺点
自连接	通过JOIN和子查询模拟	代码复杂，性能差
用户变量	使用会话变量计算排名	结果不稳定，易出错
应用层处理	在程序中实现分组逻辑	数据传输量大

5. 高级应用技巧

5.1 动态窗口框架

窗口框架可以基于当前行的值动态计算，例如计算每行最近30天的累计：

sql复制SELECT 
    date,
    amount,
    SUM(amount) OVER (
        ORDER BY date
        RANGE BETWEEN INTERVAL 29 DAY PRECEDING AND CURRENT ROW
    ) AS rolling_30day_sum
FROM sales;

5.2 多维度分析

可以在一个查询中定义多个窗口，实现多维分析：

sql复制SELECT 
    product_id,
    month,
    sales,
    -- 月销售额占比
    sales / SUM(sales) OVER (PARTITION BY month) AS month_ratio,
    -- 产品年度累计
    SUM(sales) OVER (
        PARTITION BY product_id 
        ORDER BY month
        ROWS UNBOUNDED PRECEDING
    ) AS ytd_sales,
    -- 同类产品排名
    RANK() OVER (
        PARTITION BY category, month
        ORDER BY sales DESC
    ) AS category_rank
FROM product_sales;

5.3 窗口函数与CTE结合

通过WITH子句(CTE)使复杂查询更清晰：

sql复制WITH monthly_stats AS (
    SELECT 
        user_id,
        MONTH(login_date) AS month,
        COUNT(*) AS logins,
        SUM(session_time) AS total_time
    FROM user_sessions
    GROUP BY user_id, MONTH(login_date)
),
user_ranking AS (
    SELECT 
        user_id,
        month,
        logins,
        total_time,
        RANK() OVER (PARTITION BY month ORDER BY logins DESC) AS login_rank,
        LAG(logins, 1) OVER (PARTITION BY user_id ORDER BY month) AS prev_logins
    FROM monthly_stats
)
SELECT * FROM user_ranking
WHERE login_rank <= 10
ORDER BY month, login_rank;