Python批量处理Excel与CSV文件的高效方法-代码聚汇网

Python批量处理Excel与CSV文件的高效方法

胖厨胡学斌

1. 为什么需要批量处理表格文件

在日常办公和数据分析工作中，我们经常需要处理大量Excel和CSV文件。想象一下这样的场景：每个月末你需要汇总30个部门的销售报表，每个报表有5个工作表；或者你手上有200个CSV格式的传感器数据记录文件需要统一清洗格式。手动一个个打开文件操作不仅效率低下，还容易出错。

Python作为数据处理领域的瑞士军刀，提供了强大的工具链来解决这类重复性工作。我曾在一次电商促销活动后，用Python脚本在10分钟内完成了原本需要8小时手工操作的2000个订单文件的合并与统计工作。这种效率提升是革命性的。

2. 核心工具选型与准备

2.1 必备Python库介绍

处理表格文件主要依赖以下几个核心库：

pandas：数据分析的基石库，提供DataFrame数据结构
openpyxl：专门处理xlsx格式的Excel文件
xlrd/xlwt：处理旧版xls格式（注意xlrd 2.0+已停止支持xls）
csv：Python标准库，处理CSV文件的基础工具

安装命令：

bash复制pip install pandas openpyxl xlwt

2.2 开发环境配置建议

我强烈推荐使用Jupyter Notebook进行初期开发和调试，它的交互式特性非常适合数据处理工作。实际部署时可以考虑转为.py脚本。另外，VS Code配合Python插件也是不错的选择，特别是需要处理大量文件时。

注意：处理大型Excel文件（超过50MB）时，建议增加内存设置：
python复制import pandas as pd
pd.set_option('display.max_columns', None)  # 显示所有列
pd.set_option('display.max_rows', 100)     # 显示100行

3. 文件批量处理实战技巧

3.1 自动遍历文件夹中的所有表格文件

这是最基础也是最重要的第一步。使用Python的os和glob模块可以轻松实现：

python复制import os
import glob

def get_files(folder_path, extensions=['.xlsx', '.csv']):
    """获取文件夹中所有指定扩展名的文件"""
    all_files = []
    for ext in extensions:
        all_files.extend(glob.glob(os.path.join(folder_path, f'*{ext}')))
    return sorted(all_files)  # 按文件名排序

3.2 统一读取不同格式的文件

不同格式的文件需要不同的读取方式，下面是一个统一的处理函数：

python复制import pandas as pd

def read_table_file(file_path):
    """根据文件扩展名自动选择读取方式"""
    if file_path.endswith('.xlsx'):
        return pd.read_excel(file_path, engine='openpyxl')
    elif file_path.endswith('.xls'):
        return pd.read_excel(file_path, engine='xlrd')
    elif file_path.endswith('.csv'):
        return pd.read_csv(file_path)
    else:
        raise ValueError(f"不支持的格式: {file_path}")

3.3 批量处理典型场景实现

场景1：多文件数据合并

python复制def merge_files(file_list, output_path):
    """合并多个文件到一个DataFrame"""
    dfs = []
    for file in file_list:
        df = read_table_file(file)
        df['来源文件'] = os.path.basename(file)  # 添加来源标记
        dfs.append(df)
    
    merged_df = pd.concat(dfs, ignore_index=True)
    merged_df.to_excel(output_path, index=False)
    return merged_df

场景2：批量格式转换

python复制def convert_format(input_folder, output_folder, target_format='csv'):
    """批量转换文件格式"""
    os.makedirs(output_folder, exist_ok=True)
    files = get_files(input_folder)
    
    for file in files:
        df = read_table_file(file)
        base_name = os.path.splitext(os.path.basename(file))[0]
        output_path = os.path.join(output_folder, f"{base_name}.{target_format}")
        
        if target_format == 'csv':
            df.to_csv(output_path, index=False)
        elif target_format == 'xlsx':
            df.to_excel(output_path, index=False)

4. 高级应用与性能优化

4.1 处理大型文件的技巧

当处理GB级别的大型文件时，内存管理变得至关重要：

分块读取：

python复制chunk_size = 100000  # 每次读取10万行
chunks = pd.read_csv('large_file.csv', chunksize=chunk_size)
for chunk in chunks:
    process(chunk)  # 你的处理函数

指定数据类型：

python复制dtypes = {
    'id': 'int32',
    'price': 'float32',
    'description': 'string'
}
df = pd.read_csv('data.csv', dtype=dtypes)

4.2 多线程/多进程加速

对于CPU密集型的处理任务，可以使用concurrent.futures加速：

python复制from concurrent.futures import ThreadPoolExecutor

def process_file(file_path):
    # 你的文件处理逻辑
    pass

with ThreadPoolExecutor(max_workers=4) as executor:
    files = get_files('input_folder')
    executor.map(process_file, files)

5. 常见问题与解决方案

5.1 编码问题处理

不同来源的CSV文件可能使用不同的编码，常见的有：

UTF-8（最通用）
GBK（中文环境常见）
ISO-8859-1（西欧语言）

安全的读取方式：

python复制encodings = ['utf-8', 'gbk', 'iso-8859-1']
for enc in encodings:
    try:
        df = pd.read_csv(file, encoding=enc)
        break
    except UnicodeDecodeError:
        continue

5.2 日期格式统一

不同文件中的日期格式可能五花八门，统一处理方案：

python复制def standardize_dates(df, date_columns):
    """将日期列统一转换为datetime格式"""
    for col in date_columns:
        df[col] = pd.to_datetime(df[col], errors='coerce')  # 无效日期转为NaT
    return df

5.3 内存错误处理

遇到内存不足时，可以尝试：

使用更高效的数据类型（如用category代替object）
删除不需要的列：df.drop(columns=['unused_col'], inplace=True)
分块处理数据

6. 实战案例：销售报表自动化处理

假设我们需要处理以下任务：

每月有30个分店的xlsx格式销售报表
需要合并所有报表
计算各品类销售总额
生成可视化图表

完整实现代码：

python复制import pandas as pd
import matplotlib.pyplot as plt

def process_sales_reports(input_folder, output_folder):
    # 读取并合并文件
    files = get_files(input_folder, ['.xlsx'])
    merged_df = merge_files(files, os.path.join(output_folder, 'merged_sales.xlsx'))
    
    # 数据分析
    category_sales = merged_df.groupby('产品类别')['销售额'].sum().sort_values(ascending=False)
    
    # 可视化
    plt.figure(figsize=(10,6))
    category_sales.plot(kind='bar')
    plt.title('各品类销售总额')
    plt.ylabel('销售额（元）')
    plt.tight_layout()
    plt.savefig(os.path.join(output_folder, 'sales_by_category.png'))
    
    return merged_df, category_sales

7. 扩展应用与进阶技巧

7.1 与数据库交互

处理后的数据通常需要存入数据库：

python复制from sqlalchemy import create_engine

def save_to_database(df, table_name):
    """将DataFrame保存到MySQL数据库"""
    engine = create_engine('mysql://user:password@localhost/db_name')
    df.to_sql(table_name, engine, if_exists='replace', index=False)

7.2 自动化邮件发送

处理完成后自动发送结果：

python复制import smtplib
from email.mime.multipart import MIMEMultipart
from email.mime.text import MIMEText
from email.mime.application import MIMEApplication

def send_email_with_attachment(to_email, subject, body, file_path):
    msg = MIMEMultipart()
    msg['From'] = 'your_email@example.com'
    msg['To'] = to_email
    msg['Subject'] = subject
    
    msg.attach(MIMEText(body))
    
    with open(file_path, 'rb') as f:
        attach = MIMEApplication(f.read(), Name=os.path.basename(file_path))
    attach['Content-Disposition'] = f'attachment; filename="{os.path.basename(file_path)}"'
    msg.attach(attach)
    
    with smtplib.SMTP('smtp.example.com', 587) as server:
        server.starttls()
        server.login('your_email@example.com', 'password')
        server.send_message(msg)

7.3 定时任务设置

使用Windows任务计划或Linux的cron设置定时任务，让脚本定期自动运行。例如，每天凌晨2点处理前一天的销售数据：

Linux crontab示例：

code复制0 2 * * * /usr/bin/python3 /path/to/your/script.py

8. 最佳实践与经验总结

经过多年实战，我总结了以下黄金法则：

先小规模测试：先用少量文件测试脚本，确认无误再处理全部文件
保留原始文件：任何处理都应该在新文件上进行，原始文件永远保留
添加日志记录：使用logging模块记录处理过程，方便排查问题
异常处理：考虑各种可能的异常情况（文件损坏、格式不符等）
性能监控：对于长时间运行的脚本，添加进度提示

一个健壮的生产级脚本模板：

python复制import logging
from datetime import datetime

def setup_logging():
    """配置日志记录"""
    log_file = f"process_log_{datetime.now().strftime('%Y%m%d_%H%M%S')}.log"
    logging.basicConfig(
        level=logging.INFO,
        format='%(asctime)s - %(levelname)s - %(message)s',
        handlers=[
            logging.FileHandler(log_file),
            logging.StreamHandler()
        ]
    )

def main():
    setup_logging()
    try:
        logging.info("开始处理文件")
        # 你的主要处理逻辑
        logging.info("处理完成")
    except Exception as e:
        logging.error(f"处理过程中出错: {str(e)}", exc_info=True)
        raise

if __name__ == "__main__":
    main()

在实际项目中，我发现最容易出错的是文件路径处理和编码问题。建议在开发阶段就添加详细的日志记录，并编写单元测试验证核心功能。对于需要长期维护的脚本，考虑使用配置文件来管理所有路径和参数，而不是硬编码在脚本中。