SQL子查询原理、优化与应用场景详解

贴娘饭

1. 子查询的本质与分类

SQL子查询本质上是一个嵌套在其他SQL语句中的完整查询语句。它就像是一个独立的小程序，先执行自己的运算，然后把结果传递给外层查询使用。这种嵌套结构让SQL具备了更强大的数据处理能力。

从执行方式来看，子查询主要分为两种类型：

相关子查询：子查询的执行依赖于外层查询的当前行数据
非相关子查询：子查询可以独立执行，不依赖外层查询

从返回结果来看，子查询又可以分为：

标量子查询：返回单一值的子查询
列子查询：返回单列多行的子查询
行子查询：返回单行多列的子查询
表子查询：返回多行多列的子查询

2. 子查询的典型应用场景

2.1 WHERE条件中的子查询

这是最常见的子查询用法，通过子查询动态生成过滤条件。例如查找销售额高于平均值的商品：

sql复制SELECT product_name, price
FROM products
WHERE price > (SELECT AVG(price) FROM products);

这里子查询先计算出商品平均价格，然后外层查询用这个值作为过滤条件。

注意：在WHERE中使用子查询时，要特别注意子查询返回的结果类型必须与比较运算符匹配。比如使用IN运算符时，子查询应该返回单列多行结果。

2.2 FROM子句中的派生表

子查询可以作为临时表出现在FROM子句中，这种用法在处理复杂逻辑时特别有用：

sql复制SELECT d.dept_name, e.avg_salary
FROM departments d
JOIN (
    SELECT dept_id, AVG(salary) as avg_salary
    FROM employees
    GROUP BY dept_id
) e ON d.dept_id = e.dept_id;

这个例子中，子查询先按部门计算平均薪资生成临时表，然后与部门表关联查询。

2.3 SELECT列表中的标量子查询

在SELECT列表中使用返回单值的子查询，可以为每行结果动态计算附加信息：

sql复制SELECT 
    product_id,
    product_name,
    price,
    (SELECT AVG(price) FROM products) as avg_price,
    price - (SELECT AVG(price) FROM products) as price_diff
FROM products;

这种用法需要注意子查询的效率问题，因为它会为结果集的每一行都执行一次。

3. 子查询性能优化技巧

3.1 避免在SELECT列表中使用相关子查询

相关子查询在SELECT列表中会导致性能问题，因为它会为每行数据执行一次。例如：

sql复制-- 低效写法
SELECT 
    o.order_id,
    (SELECT COUNT(*) FROM order_items oi WHERE oi.order_id = o.order_id) as item_count
FROM orders o;

-- 优化写法
SELECT 
    o.order_id,
    COUNT(oi.item_id) as item_count
FROM orders o
LEFT JOIN order_items oi ON o.order_id = oi.order_id
GROUP BY o.order_id;

3.2 使用EXISTS替代IN

当检查记录是否存在时，EXISTS通常比IN更高效：

sql复制-- 低效写法
SELECT *
FROM customers
WHERE customer_id IN (SELECT customer_id FROM orders);

-- 优化写法
SELECT *
FROM customers c
WHERE EXISTS (SELECT 1 FROM orders o WHERE o.customer_id = c.customer_id);

EXISTS在找到第一个匹配项后就会停止搜索，而IN需要收集所有结果。

3.3 合理使用索引

确保子查询中使用的列都有适当的索引：

sql复制-- 确保orders表的customer_id有索引
SELECT *
FROM customers
WHERE customer_id IN (SELECT customer_id FROM orders WHERE order_date > '2023-01-01');

4. 高级子查询技巧

4.1 使用WITH子句(CTE)简化复杂查询

公共表表达式(CTE)可以让复杂子查询更易读：

sql复制WITH dept_stats AS (
    SELECT 
        dept_id,
        AVG(salary) as avg_salary,
        COUNT(*) as emp_count
    FROM employees
    GROUP BY dept_id
)
SELECT 
    d.dept_name,
    ds.avg_salary,
    ds.emp_count
FROM departments d
JOIN dept_stats ds ON d.dept_id = ds.dept_id;

4.2 使用LATERAL JOIN

MySQL 8.0+支持LATERAL JOIN，允许子查询引用前面表的列：

sql复制SELECT 
    d.dept_name,
    top_emp.emp_name,
    top_emp.salary
FROM departments d
CROSS JOIN LATERAL (
    SELECT emp_name, salary
    FROM employees e
    WHERE e.dept_id = d.dept_id
    ORDER BY salary DESC
    LIMIT 3
) AS top_emp;

4.3 使用窗口函数替代部分子查询

窗口函数可以替代一些需要子查询的场景，性能更好：

sql复制-- 使用子查询
SELECT 
    emp_id,
    emp_name,
    salary,
    (SELECT AVG(salary) FROM employees) as avg_salary
FROM employees;

-- 使用窗口函数
SELECT 
    emp_id,
    emp_name,
    salary,
    AVG(salary) OVER() as avg_salary
FROM employees;

5. 常见问题与解决方案

5.1 子查询返回多行错误

当子查询可能返回多行但外层查询期望单值时，会出现错误：

sql复制-- 错误示例
SELECT *
FROM products
WHERE price = (SELECT price FROM special_offers);

解决方案：

使用IN而不是=
添加LIMIT 1
使用聚合函数确保返回单值

5.2 子查询性能问题

子查询可能导致性能下降的几种情况：

相关子查询被重复执行
子查询没有利用索引
子查询返回大量数据

解决方案：

考虑重写为JOIN
确保相关列有索引
限制子查询返回的数据量

5.3 NULL值处理

子查询中NULL值可能导致意外结果：

sql复制SELECT *
FROM table1
WHERE col1 NOT IN (SELECT col2 FROM table2);

如果table2.col2包含NULL值，整个查询可能返回空结果。解决方案：

sql复制SELECT *
FROM table1
WHERE col1 NOT IN (SELECT col2 FROM table2 WHERE col2 IS NOT NULL);

6. 实际案例分析

6.1 电商平台销售分析

找出销售额高于品类平均的商品：

sql复制SELECT 
    p.product_id,
    p.product_name,
    c.category_name,
    SUM(oi.quantity * oi.unit_price) as total_sales
FROM products p
JOIN categories c ON p.category_id = c.category_id
JOIN order_items oi ON p.product_id = oi.product_id
GROUP BY p.product_id, p.product_name, c.category_name
HAVING SUM(oi.quantity * oi.unit_price) > (
    SELECT AVG(cat_sales.avg_sales)
    FROM (
        SELECT 
            p.category_id,
            AVG(SUM(oi.quantity * oi.unit_price)) as avg_sales
        FROM products p
        JOIN order_items oi ON p.product_id = oi.product_id
        GROUP BY p.product_id, p.category_id
    ) cat_sales
    WHERE cat_sales.category_id = p.category_id
);

6.2 员工薪资分析

找出薪资高于部门平均且绩效为A的员工：

sql复制SELECT 
    e.emp_id,
    e.emp_name,
    e.salary,
    d.dept_name
FROM employees e
JOIN departments d ON e.dept_id = d.dept_id
WHERE e.performance = 'A'
AND e.salary > (
    SELECT AVG(salary)
    FROM employees
    WHERE dept_id = e.dept_id
);

6.3 学生成绩分析

找出每门课程成绩高于该课程平均分的学生：

sql复制SELECT 
    s.student_id,
    s.student_name,
    c.course_name,
    sc.score
FROM students s
JOIN student_courses sc ON s.student_id = sc.student_id
JOIN courses c ON sc.course_id = c.course_id
WHERE sc.score > (
    SELECT AVG(score)
    FROM student_courses
    WHERE course_id = sc.course_id
);