SQL Server重复数据统计实战：GROUP BY与ROLLUP应用

洛裳

1. 项目概述

在日常数据库管理中，重复数据统计与汇总是一项基础但至关重要的任务。作为一名长期与SQL Server打交道的DBA，我发现很多开发者在处理重复记录时往往停留在简单的COUNT查询层面，而忽略了SQL Server提供的强大分组统计功能。本文将分享一个完整的实战案例，展示如何利用GROUP BY、WITH ROLLUP和HAVING等语句组合，实现对题库系统中重复题目的精细化统计分析。

这个方案特别适合以下场景：

教育类系统的题库质量检查
数据迁移后的重复项排查
定期数据健康检查
数据清洗前的分析阶段

2. 环境准备与数据设计

2.1 运行环境配置

推荐使用以下环境进行实践：

操作系统：Windows Server 2019（生产环境推荐）或Windows 10/11（开发测试）
数据库：SQL Server 2016及以上版本（本文示例基于2016版本）
开发框架：.NET Framework 4.7.2（如需通过应用程序导入数据）

提示：虽然示例使用SQL Server 2016，但核心SQL语法在2008 R2及以上版本均适用，差异主要在图形化管理工具方面。

2.2 数据表结构设计

我们设计了一个典型的题库表[exams]，结构如下：

序号	字段名	类型	说明
1	sortid	int	题目排序号（唯一标识）
2	etype	nvarchar(50)	试题类型（单选/多选/判断）
3	title	nvarchar(500)	题目正文
4	A	nvarchar(200)	选项A内容
5	B	nvarchar(200)	选项B内容
6	C	nvarchar(200)	选项C内容
7	D	nvarchar(200)	选项D内容

关键设计考虑：

sortid作为主键确保每条记录唯一性
title字段需要建立非聚集索引以提高分组查询性能
选项字段采用nvarchar以适应多语言存储需求

2.3 模拟数据准备

为演示重复数据场景，我们特意在207-212题插入了重复题目：

sql复制INSERT INTO [exams] VALUES
(207, '单选', '下列哪个是关系型数据库？', 'MySQL', 'MongoDB', 'Redis', 'Neo4j'),
(208, '单选', '下列哪个是关系型数据库？', 'MySQL', 'MongoDB', 'Redis', 'Neo4j'),
(209, '多选', 'SQL语句分类包含？', 'DQL', 'DML', 'DDL', 'DCL'),
(210, '多选', 'SQL语句分类包含？', 'DQL', 'DML', 'DDL', 'DCL'),
(211, '判断', 'SQL Server是微软的产品', '正确', '错误', NULL, NULL),
(212, '判断', 'SQL Server是微软的产品', '正确', '错误', NULL, NULL);

3. 核心实现步骤

3.1 数据导入方案

虽然本文重点在SQL分析，但完整解决方案应从数据导入开始。推荐两种方式：

方案一：使用SQL Server导入导出向导

右键数据库 → 任务 → 导入数据
选择Excel数据源
映射字段时注意nvarchar长度设置
执行前建议勾选"启用标识插入"以保留原sortid

方案二：C#程序导入（批量处理推荐）

csharp复制// 使用EPPlus读取Excel
using(var package = new ExcelPackage(new FileInfo("题库.xlsx"))) {
    var worksheet = package.Workbook.Worksheets[0];
    
    // 使用SqlBulkCopy高效导入
    using(var bulkCopy = new SqlBulkCopy(connectionString)) {
        bulkCopy.DestinationTableName = "exams";
        // 列映射...
        bulkCopy.WriteToServer(dataTable);
    }
}

注意：实际开发中应添加异常处理和日志记录，对于大数据量(>10万行)建议分批次提交。

3.2 基础分组统计

最基本的重复检测SQL如下：

sql复制SELECT 
    title,
    etype,
    count(title) AS repeat_count,
    min(sortid) AS first_appear,
    max(sortid) AS last_appear
FROM [exams]  
GROUP BY etype, Title
ORDER BY repeat_count DESC;

关键点解析：

count(title)计算每组的记录数，即重复次数
min(sortid)和max(sortid)定位该题目首次和最后出现的位置
按repeat_count降序排列使重复项优先显示

执行结果示例：

title	etype	repeat_count	first_appear	last_appear
下列哪个是...	单选	2	207	208
SQL语句分类...	多选	2	209	210

3.3 增强型统计汇总

3.3.1 WITH ROLLUP应用

添加WITH ROLLUP实现分级汇总：

sql复制SELECT 
    CASE 
        WHEN GROUPING(title) = 1 THEN '【小计】' + etype 
        WHEN GROUPING(etype) = 1 THEN '【总计】'
        ELSE title 
    END AS display_title,
    etype,
    count(title) AS record_count,
    min(sortid) AS min_id,
    max(sortid) AS max_id
FROM [exams] 
GROUP BY etype, Title WITH ROLLUP
HAVING count(title) > 1 OR GROUPING(title) = 1 OR GROUPING(etype) = 1;

技术细节：

GROUPING()函数识别汇总行（返回1）
CASE WHEN构造友好的显示文本
HAVING子句过滤：
- 保留重复记录(count>1)
- 保留题型小计行(GROUPING(title)=1)
- 保留总计行(GROUPING(etype)=1)

3.3.2 可视化优化输出

进一步优化结果显示：

sql复制SELECT 
    CASE 
        WHEN title IS NULL AND etype IS NULL THEN '题库总计'
        WHEN title IS NULL THEN etype + '小计'
        ELSE title
    END AS category,
    CASE 
        WHEN title IS NULL AND etype IS NULL THEN NULL
        WHEN title IS NULL THEN NULL
        ELSE etype
    END AS question_type,
    count(title) AS count,
    min(sortid) AS first_id,
    max(sortid) AS last_id
FROM [exams] 
GROUP BY etype, Title WITH ROLLUP
HAVING count(title) > 1 OR title IS NULL;

4. 高级应用与优化

4.1 性能优化技巧

索引策略：

sql复制-- 创建覆盖索引
CREATE INDEX IX_exams_title_etype ON [exams](title, etype) INCLUDE (sortid);

统计信息更新：

sql复制-- 大数据量更新后执行
UPDATE STATISTICS [exams] WITH FULLSCAN;

查询提示（海量数据时）：

sql复制SELECT ... FROM [exams] WITH (NOLOCK) -- 脏读允许时
OPTION (OPTIMIZE FOR UNKNOWN, MAXDOP 4);

4.2 动态SQL实现

对于需要灵活筛选的场景，可以使用动态SQL：

sql复制DECLARE @sql NVARCHAR(MAX) = N'
SELECT title, etype, count(*) as cnt
FROM [exams]
WHERE 1=1 ';

-- 根据条件动态拼接
IF @start_id IS NOT NULL
    SET @sql = @sql + ' AND sortid >= ' + CAST(@start_id AS NVARCHAR);
    
IF @question_type IS NOT NULL
    SET @sql = @sql + ' AND etype = ''' + @question_type + '''';

SET @sql = @sql + ' GROUP BY title, etype HAVING count(*) > 1';

EXEC sp_executesql @sql;

4.3 与应用程序集成

C#调用示例：

csharp复制public List<DuplicateItem> FindDuplicates(string connectionString) 
{
    var sql = @"SELECT title, etype, count(*) as count
                FROM exams
                GROUP BY title, etype
                HAVING count(*) > 1";
    
    using(var conn = new SqlConnection(connectionString))
    {
        return conn.Query<DuplicateItem>(sql).ToList();
    }
}

public class DuplicateItem 
{
    public string Title { get; set; }
    public string Type { get; set; }
    public int Count { get; set; }
}

5. 常见问题解决方案

5.1 中文分组异常

现象：中文字段分组结果不符合预期
原因：SQL Server的排序规则(collation)设置影响中文比较
解决方案：

sql复制-- 查询时指定中文排序规则
SELECT title COLLATE Chinese_PRC_CI_AS, ...
GROUP BY title COLLATE Chinese_PRC_CI_AS, ...

5.2 大数据量性能问题

优化方案：

分页处理：

sql复制WITH CTE AS (
    SELECT title, etype, count(*) as cnt,
           ROW_NUMBER() OVER(ORDER BY count(*) DESC) AS rn
    FROM [exams]
    GROUP BY title, etype
    HAVING count(*) > 1
)
SELECT * FROM CTE WHERE rn BETWEEN 1 AND 100;

使用临时表预聚合：

sql复制SELECT title, etype, count(*) as cnt
INTO #temp_results
FROM [exams]
WHERE ... -- 先过滤条件
GROUP BY title, etype;

-- 再从临时表查询
SELECT * FROM #temp_results WHERE cnt > 1;

5.3 精确匹配与模糊匹配

精确匹配（默认）：

sql复制GROUP BY title -- 完全一致才算重复

模糊匹配（相似题目检测）：

sql复制-- 使用DIFFERENCE函数（0-4评分，4为最相似）
SELECT a.title, b.title, 
       DIFFERENCE(a.title, b.title) AS similarity
FROM [exams] a
JOIN [exams] b ON a.sortid < b.sortid
WHERE DIFFERENCE(a.title, b.title) >= 3
ORDER BY similarity DESC;

6. 扩展应用场景

6.1 数据清洗自动化

发现重复后自动处理：

sql复制-- 标记重复记录（不删除）
ALTER TABLE [exams] ADD is_duplicate BIT DEFAULT 0;

UPDATE e1
SET is_duplicate = 1
FROM [exams] e1
INNER JOIN (
    SELECT title, etype, min(sortid) as keep_id
    FROM [exams]
    GROUP BY title, etype
    HAVING count(*) > 1
) e2 ON e1.title = e2.title AND e1.etype = e2.etype
WHERE e1.sortid <> e2.keep_id;

6.2 定期监控作业

创建SQL Server Agent作业定期检查：

sql复制-- 每周一早上6点运行的作业
DECLARE @count INT;
SELECT @count = COUNT(*)
FROM (
    SELECT title, etype
    FROM [exams]
    GROUP BY title, etype
    HAVING count(*) > 1
) t;

IF @count > 0
BEGIN
    -- 发送邮件通知
    EXEC msdb.dbo.sp_send_dbmail
        @profile_name = 'DBA_Alerts',
        @recipients = 'dba@example.com',
        @subject = '题库重复题目警报',
        @body = '发现重复题目，请及时处理';
END

6.3 跨表重复检测

扩展应用到多表关联场景：

sql复制-- 检测题库表与历史题库表的重复题目
SELECT a.title, a.etype, '当前题库' as source
FROM [exams] a
WHERE EXISTS (
    SELECT 1 FROM [exams_archive] b
    WHERE a.title = b.title AND a.etype = b.etype
)
UNION ALL
SELECT title, etype, '历史题库' as source
FROM [exams_archive]
WHERE EXISTS (
    SELECT 1 FROM [exams] b
    WHERE title = b.title AND etype = b.etype
);