别再傻傻分不清了！用MySQL实战案例彻底搞懂row_number、rank和dense_rank

southbread

别再傻傻分不清了！用MySQL实战案例彻底搞懂row_number、rank和dense_rank

窗口函数是SQL中非常强大的工具，而row_number、rank和dense_rank这三个排序函数在实际业务场景中使用频率极高。很多开发者在面试或工作中都会遇到需要精确控制排序逻辑的情况，但往往对这三个函数的区别感到困惑。本文将用一个完整的电商订单分析案例，带你彻底理解它们的差异和应用场景。

1. 理解窗口函数的基础概念

在深入探讨这三个排序函数之前，我们需要先明确什么是窗口函数。窗口函数(Window Function)是SQL中一种特殊的函数，它能够在保持原始行不变的同时，对一组相关的行进行计算。与聚合函数不同，窗口函数不会将多行合并为一行，而是为每一行返回一个值。

窗口函数的基本语法结构如下：

sql复制函数名() OVER (
    [PARTITION BY 列名1, 列名2...]
    [ORDER BY 列名 [ASC|DESC]]
    [frame_clause]
)

其中：

PARTITION BY：定义窗口的分区，类似于GROUP BY
ORDER BY：定义窗口内的排序规则
frame_clause：定义窗口框架，即计算时考虑的行范围

窗口函数的执行顺序是在WHERE、GROUP BY和HAVING之后，但在ORDER BY之前。这意味着：

不能在WHERE、GROUP BY或HAVING子句中引用窗口函数的结果
可以在ORDER BY子句中引用窗口函数的结果

2. 创建实战案例数据集

为了更好地理解这三个函数的区别，我们创建一个电商订单分析的案例数据集。假设我们有一个订单表，包含以下字段：

sql复制CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    customer_id INT,
    product_id INT,
    order_date DATE,
    amount DECIMAL(10,2),
    region VARCHAR(50)
);

-- 插入示例数据
INSERT INTO orders VALUES
(1, 101, 1001, '2023-01-15', 1500.00, '华东'),
(2, 102, 1002, '2023-01-16', 800.00, '华北'),
(3, 101, 1003, '2023-01-17', 1200.00, '华东'),
(4, 103, 1001, '2023-01-18', 1500.00, '华南'),
(5, 104, 1004, '2023-01-19', 2000.00, '华东'),
(6, 102, 1005, '2023-01-20', 800.00, '华北'),
(7, 105, 1006, '2023-01-21', 3000.00, '华南'),
(8, 103, 1007, '2023-01-22', 2500.00, '华南'),
(9, 104, 1008, '2023-01-23', 1800.00, '华东'),
(10, 105, 1009, '2023-01-24', 1200.00, '华南');

这个数据集包含了10个订单，涉及5个客户、9种产品，分布在3个地区。我们将基于这个数据集来演示三个排序函数的不同行为。

3. 三个排序函数的详细对比

3.1 ROW_NUMBER()函数

ROW_NUMBER()是最简单的排序函数，它为每一行分配一个唯一的序号，即使排序值相同，也会分配不同的序号。

sql复制SELECT 
    order_id,
    customer_id,
    amount,
    ROW_NUMBER() OVER (ORDER BY amount DESC) AS row_num
FROM orders;

执行结果示例：

order_id	customer_id	amount	row_num
7	105	3000.00	1
8	103	2500.00	2
5	104	2000.00	3
9	104	1800.00	4
1	101	1500.00	5
4	103	1500.00	6
3	101	1200.00	7
10	105	1200.00	8
2	102	800.00	9
6	102	800.00	10

关键特点：

每行都有唯一的序号
即使amount相同(如1500和1200)，也会分配不同的序号
非常适合需要绝对唯一排序的场景，如分页查询

3.2 RANK()函数

RANK()函数会在排序值相同时分配相同的排名，但会跳过后续的排名序号。

sql复制SELECT 
    order_id,
    customer_id,
    amount,
    RANK() OVER (ORDER BY amount DESC) AS rank_val
FROM orders;

执行结果示例：

order_id	customer_id	amount	rank_val
7	105	3000.00	1
8	103	2500.00	2
5	104	2000.00	3
9	104	1800.00	4
1	101	1500.00	5
4	103	1500.00	5
3	101	1200.00	7
10	105	1200.00	7
2	102	800.00	9
6	102	800.00	9

关键特点：

相同amount值的订单获得相同排名
下一个不同amount值的订单会跳过中间的排名(如从5直接跳到7)
适合体育比赛排名等场景，其中需要反映"有多少人比你更好"

3.3 DENSE_RANK()函数

DENSE_RANK()函数与RANK()类似，但在排序值相同时不会跳过后续的排名序号。

sql复制SELECT 
    order_id,
    customer_id,
    amount,
    DENSE_RANK() OVER (ORDER BY amount DESC) AS dense_rank_val
FROM orders;

执行结果示例：

order_id	customer_id	amount	dense_rank_val
7	105	3000.00	1
8	103	2500.00	2
5	104	2000.00	3
9	104	1800.00	4
1	101	1500.00	5
4	103	1500.00	5
3	101	1200.00	6
10	105	1200.00	6
2	102	800.00	7
6	102	800.00	7

关键特点：

相同amount值的订单获得相同排名
下一个不同amount值的订单不会跳过排名(从5到6)
适合需要连续排名的场景，如"前N名"分析

4. 分区排序的实际应用

窗口函数的真正威力在于能够对数据进行分区后排序。让我们看几个实际业务场景中的例子。

4.1 按地区分区排序

sql复制SELECT 
    order_id,
    region,
    amount,
    ROW_NUMBER() OVER (PARTITION BY region ORDER BY amount DESC) AS region_row_num,
    RANK() OVER (PARTITION BY region ORDER BY amount DESC) AS region_rank,
    DENSE_RANK() OVER (PARTITION BY region ORDER BY amount DESC) AS region_dense_rank
FROM orders;

执行结果(华东地区部分)：

order_id	region	amount	region_row_num	region_rank	region_dense_rank
7	华东	3000.00	1	1	1
5	华东	2000.00	2	2	2
9	华东	1800.00	3	3	3
1	华东	1500.00	4	4	4
3	华东	1200.00	5	5	5

业务价值：

可以分析每个地区的订单金额排名
识别各地区的高价值订单
比较不同地区的销售表现

4.2 找出每个客户的最大订单

sql复制SELECT * FROM (
    SELECT 
        order_id,
        customer_id,
        amount,
        ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY amount DESC) AS cust_rank
    FROM orders
) ranked_orders
WHERE cust_rank = 1;

执行结果：

order_id	customer_id	amount	cust_rank
1	101	1500.00	1
2	102	800.00	1
8	103	2500.00	1
5	104	2000.00	1
7	105	3000.00	1

业务价值：

识别每个客户的最大订单
用于客户价值分析
支持个性化营销策略制定

5. 高级应用场景与性能考量

5.1 分页查询的最佳实践

ROW_NUMBER()是实现高效分页查询的理想选择：

sql复制-- 获取第2页数据，每页3条记录
SELECT * FROM (
    SELECT 
        order_id,
        customer_id,
        amount,
        ROW_NUMBER() OVER (ORDER BY order_date DESC) AS row_num
    FROM orders
) paginated
WHERE row_num BETWEEN 4 AND 6;

性能提示：

对于大数据集，确保ORDER BY列有索引
避免在窗口函数中使用复杂的计算表达式
考虑使用WHERE子句先过滤数据，再应用窗口函数

5.2 处理并列情况的不同策略

根据业务需求选择合适的排序函数：

场景	推荐函数	理由
分页查询	ROW_NUMBER()	需要确定性的排序结果
比赛排名(允许并列)	RANK()	反映实际排名位置，如金牌、银牌、铜牌
客户分层(如金牌/银牌/铜牌客户)	DENSE_RANK()	保持等级连续性，便于后续分析
获取每组前N名	三者均可	取决于如何处理并列情况

5.3 窗口框架的进阶使用

窗口函数还支持定义更精确的窗口框架：

sql复制-- 计算移动平均
SELECT 
    order_id,
    order_date,
    amount,
    AVG(amount) OVER (
        ORDER BY order_date 
        ROWS BETWEEN 2 PRECEDING AND CURRENT ROW
    ) AS moving_avg
FROM orders;

窗口框架类型：

ROWS BETWEEN ... AND ...：按物理行数定义窗口
RANGE BETWEEN ... AND ...：按逻辑值范围定义窗口
GROUPS BETWEEN ... AND ...：按分组定义窗口

6. 常见误区与调试技巧

6.1 易犯错误

在WHERE子句中引用窗口函数结果：

sql复制-- 错误示例
SELECT order_id, ROW_NUMBER() OVER () AS rn
FROM orders
WHERE rn <= 5;  -- 这里会报错

-- 正确做法
SELECT * FROM (
    SELECT order_id, ROW_NUMBER() OVER () AS rn
    FROM orders
) t WHERE rn <= 5;

忽略NULL值的排序行为：
- 默认情况下，NULL值会排在最后(ASC)或最前(DESC)
- 可以使用NULLS FIRST或NULLS LAST明确指定
性能问题：
- 复杂的窗口函数可能导致查询性能下降
- 对于大数据集，考虑使用物化视图或预计算结果

6.2 调试技巧

逐步构建查询：
- 先测试基础查询
- 然后添加窗口函数
- 最后添加过滤条件

使用CTE提高可读性：

sql复制WITH ranked_orders AS (
    SELECT 
        order_id,
        RANK() OVER (PARTITION BY region ORDER BY amount DESC) AS rnk
    FROM orders
)
SELECT * FROM ranked_orders WHERE rnk <= 3;

检查执行计划：
- 使用EXPLAIN分析查询性能
- 确保窗口函数使用的排序列有适当索引

已经到底了哦

精选内容

1 3GPP提案查询保姆级教程：从RAN会议到具体文档的完整路径（附最新R18动态）2 树莓派4B+ROS2 Humble实战：手把手教你搭建ArduPilot仿真环境（避坑指南）3 用STM32F103C8T6驱动BH1750传感器，做个自动调光小夜灯（附完整代码）4 STC15单片机实战：手把手教你复刻蓝桥杯省赛智能灌溉系统（附完整源码）5 别再傻傻分不清了！FPGA项目里选UART、RS232还是RS422？一个硬件工程师的血泪避坑指南 6 合宙ESP32C3搭配MPU6500传感器，一个Arduino库搞定六轴数据读取（附完整代码）7 解码HiFi的硬核密码：从芯片到系统的音质科学 8 手把手教你用ABAP封装一个完整的交货单处理函数（含拣配WS_DELIVERY_UPDATE与发货BAPI）9 基于TIA Portal的PROFINET异构集成：西门子PLC与第三方变频器实战组态 10 别再乱设Depth了！Unity多摄像机渲染顺序与Layer的完整避坑指南

别再傻傻分不清了！用MySQL实战案例彻底搞懂row_number、rank和dense_rank

别再傻傻分不清了！用MySQL实战案例彻底搞懂row_number、rank和dense_rank

1. 理解窗口函数的基础概念

2. 创建实战案例数据集

3. 三个排序函数的详细对比

3.1 ROW_NUMBER()函数

3.2 RANK()函数

3.3 DENSE_RANK()函数

4. 分区排序的实际应用

4.1 按地区分区排序

4.2 找出每个客户的最大订单

5. 高级应用场景与性能考量

5.1 分页查询的最佳实践

5.2 处理并列情况的不同策略

5.3 窗口框架的进阶使用

6. 常见误区与调试技巧

6.1 易犯错误

6.2 调试技巧

内容推荐