Python实现Excel数据自动比对与可视化分析-代码聚汇网

Python实现Excel数据自动比对与可视化分析

Noamwa

1. 项目背景与需求分析

在日常办公和数据处理中，我们经常需要比对两个Excel工作表中的数据差异。特别是在人力资源管理、财务对账、客户管理等场景下，快速准确地找出两个表格之间的差异数据是一项高频需求。

以员工信息比对为例，常见场景包括：

人事部门需要核对两个不同时间点的员工花名册
财务部门需要比对银行提供的工资清单与公司内部记录
行政部门需要确认不同部门提供的活动参与人员名单

传统的手工比对方式存在几个明显痛点：

效率低下：需要人工逐行查看，数据量大时耗时耗力
容易出错：肉眼比对难免会有疏漏
缺乏可视化：难以直观展示比对结果
无法复用：每次比对都需要重复劳动

基于这些痛点，我开发了一个基于Python的Excel数据比对工具，可以自动完成以下核心功能：

一键比对两个工作表中的数据差异
支持单列或多列作为比对依据
自动生成详细的比对报告
可视化展示比对结果
支持导出为Excel文件

2. 技术方案设计

2.1 整体架构

采用分层架构设计，将功能模块划分为：

领域层：封装核心业务逻辑和数据模型
应用层：实现具体的比对算法和业务逻辑
表现层：提供图形用户界面

这种设计遵循了单一职责原则，使得代码更易于维护和扩展。

2.2 核心依赖库

python复制import pandas as pd  # 数据处理核心库
import matplotlib.pyplot as plt  # 数据可视化
import openpyxl  # Excel文件读写
import ttkbootstrap as ttk  # 现代化UI界面

2.3 关键技术点

数据清洗与预处理
- 处理空值和重复值
- 统一数据类型
- 生成唯一键
集合运算比对算法
- 使用集合的交集、差集运算快速找出差异
- 支持多列组合作为比对依据
可视化展示
- 饼图展示数据分布比例
- 柱状图对比数据数量
异步处理
- 避免大数据量时界面卡顿

3. 核心实现细节

3.1 数据比对算法实现

比对的核心逻辑在ExcelComparisonService类中实现：

python复制@staticmethod
def compare(excel_data: ExcelData, rule: ComparisonRule) -> ComparisonResult:
    """
    执行核心比对逻辑
    """
    result = ComparisonResult()
    
    # 获取两个工作表的数据
    df1 = excel_data.get_sheet_data(rule.sheet1_name)
    df2 = excel_data.get_sheet_data(rule.sheet2_name)
    
    # 生成唯一键（单列/多列）
    df1['_unique_key'] = ExcelComparisonService.generate_unique_key(df1, rule.compare_columns)
    df2['_unique_key'] = ExcelComparisonService.generate_unique_key(df2, rule.compare_columns)
    
    # 去重（基于唯一键）
    df1_clean = df1.drop_duplicates(subset=['_unique_key']).reset_index(drop=True)
    df2_clean = df2.drop_duplicates(subset=['_unique_key']).reset_index(drop=True)
    
    # 计算集合差集/交集
    set1 = set(df1_clean['_unique_key'])
    set2 = set(df2_clean['_unique_key'])
    
    common_keys = set1 & set2  # 两表共有
    only_sheet1_keys = set1 - set2  # 仅表1有
    only_sheet2_keys = set2 - set1  # 仅表2有
    
    # 筛选结果（移除临时唯一键）
    result.common_data = df1_clean[df1_clean['_unique_key'].isin(common_keys)].drop(columns=['_unique_key'])
    result.only_sheet1_data = df1_clean[df1_clean['_unique_key'].isin(only_sheet1_keys)].drop(columns=['_unique_key'])
    result.only_sheet2_data = df2_clean[df2_clean['_unique_key'].isin(only_sheet2_keys)].drop(columns=['_unique_key'])
    
    # 统计数量
    result.total_sheet1 = len(df1_clean)
    result.total_sheet2 = len(df2_clean)
    result.common_count = len(common_keys)
    result.only_sheet1_count = len(only_sheet1_keys)
    result.only_sheet2_count = len(only_sheet2_keys)
    
    return result

3.2 可视化图表生成

python复制@staticmethod
def create_chart(result: ComparisonResult) -> plt.Figure:
    """
    生成比对结果图表
    """
    # 设置中文字体
    plt.rcParams['font.sans-serif'] = ['Microsoft YaHei', 'SimHei', 'DejaVu Sans']
    plt.rcParams['axes.unicode_minus'] = False
    
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))
    
    # 饼图：分布比例
    pie_labels = ['仅表1', '仅表2', '两表共有']
    pie_sizes = [result.only_sheet1_count, result.only_sheet2_count, result.common_count]
    ax1.pie(pie_sizes, labels=pie_labels, autopct='%1.1f%%', startangle=90,
            colors=['#ff9999', '#66b3ff', '#99ff99'])
    ax1.set_title('人员分布比例', fontsize=12)
    
    # 柱状图：数量对比
    bar_x = ['总条数', '独有条数', '共有条数']
    bar_sheet1 = [result.total_sheet1, result.only_sheet1_count, result.common_count]
    bar_sheet2 = [result.total_sheet2, result.only_sheet2_count, result.common_count]
    
    x = range(len(bar_x))
    width = 0.35
    ax2.bar([i - width/2 for i in x], bar_sheet1, width, label='表1', color='#ff9999')
    ax2.bar([i + width/2 for i in x], bar_sheet2, width, label='表2', color='#66b3ff')
    ax2.set_xlabel('数据类型')
    ax2.set_ylabel('数量')
    ax2.set_title('数据数量对比', fontsize=12)
    ax2.set_xticks(x)
    ax2.set_xticklabels(bar_x)
    ax2.legend()
    ax2.grid(axis='y', alpha=0.3)
    
    plt.tight_layout()
    return fig

3.3 用户界面设计

使用ttkbootstrap创建现代化UI界面：

python复制class ComparisonApp:
    """
    UI界面：基于ttkbootstrap的桌面应用
    """
    def __init__(self, root):
        self.root = root
        self.root.title("Excel数据比对工具")
        self.root.geometry("1200x800")
        
        # 全局变量
        self.excel_data: Optional[ExcelData] = None
        self.comparison_result: Optional[ComparisonResult] = None
        
        # 初始化界面
        self._setup_ui()

界面主要包含以下几个区域：

文件选择区
比对配置区
结果展示区（含标签页）
- 统计摘要
- 仅表1有数据
- 仅表2有数据
- 两表共有数据
- 图表展示

4. 使用指南与最佳实践

4.1 安装与配置

安装Python 3.7+环境
安装依赖库：

bash复制pip install pandas openpyxl matplotlib ttkbootstrap

下载脚本文件

4.2 操作步骤

启动程序
选择Excel文件
选择要比对的两个工作表
选择比对列（可多选）
点击"执行比对"按钮
查看比对结果
可导出结果到Excel

4.3 最佳实践

数据预处理建议
- 确保比对列的数据格式一致
- 处理空值和特殊字符
- 统一大小写（如需）
性能优化
- 对于大数据量（>10万行），建议：
  - 关闭实时预览
  - 增加JVM内存
  - 考虑使用数据库处理
常见比对场景
- 员工信息比对：使用员工ID或身份证号作为比对列
- 财务对账：使用交易流水号+金额作为复合比对条件
- 客户管理：使用客户编号或手机号作为比对依据

5. 常见问题与解决方案

5.1 中文字符显示问题

问题现象：图表中的中文显示为方框

解决方案：

确保系统安装了中文字体（如微软雅黑）
在代码中明确指定字体：

python复制plt.rcParams['font.sans-serif'] = ['Microsoft YaHei', 'SimHei']
plt.rcParams['axes.unicode_minus'] = False

5.2 比对结果不准确

可能原因：

比对列中存在空格或不可见字符
数据类型不一致（如数字和文本格式）
大小写不一致