Python高效处理Excel与CSV文件实战指南-代码聚汇网

Python高效处理Excel与CSV文件实战指南

鄂奎阿

1. Python处理Excel和CSV文件的必要性

在日常工作中，我们经常需要处理各种表格数据。Excel和CSV是最常见的两种表格文件格式，但手动处理大量文件既耗时又容易出错。Python作为一门强大的编程语言，提供了多种处理表格数据的库，可以极大提高工作效率。

我曾在一次数据分析项目中遇到需要处理300多个Excel文件的场景。如果手动操作，可能需要整整一周时间，而使用Python脚本，仅用2小时就完成了所有文件的合并、清洗和统计工作。这种效率提升是惊人的，也是我坚持使用Python处理表格数据的原因。

2. 准备工作与环境配置

2.1 安装必要的Python库

处理Excel和CSV文件需要安装几个核心库：

bash复制pip install openpyxl pandas xlrd xlwt

openpyxl：用于读写Excel 2010 xlsx/xlsm/xltx/xltm文件
pandas：提供高级数据结构和数据分析工具
xlrd：读取Excel文件（旧版.xls格式）
xlwt：写入Excel文件（旧版.xls格式）

提示：如果你只需要处理CSV文件，Python标准库中的csv模块就足够了，无需额外安装。

2.2 文件编码问题

处理文本文件时，编码问题是最常见的坑之一。特别是当文件包含中文或其他非ASCII字符时，建议统一使用UTF-8编码：

python复制import pandas as pd

# 读取CSV文件时指定编码
data = pd.read_csv('file.csv', encoding='utf-8')

# 写入CSV文件时也指定编码
data.to_csv('output.csv', encoding='utf-8', index=False)

3. 使用csv模块处理CSV文件

3.1 基本读写操作

Python标准库中的csv模块提供了简单直接的CSV文件处理方法：

python复制import csv

# 读取CSV文件
with open('data.csv', 'r', encoding='utf-8', newline='') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

# 写入CSV文件
with open('output.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(['姓名', '年龄', '城市'])  # 写入标题行
    writer.writerow(['张三', '25', '北京'])

3.2 处理带标题的CSV文件

对于有标题行的CSV文件，使用DictReader和DictWriter会更方便：

python复制# 使用DictReader读取
with open('data.csv', 'r', encoding='utf-8', newline='') as f:
    reader = csv.DictReader(f)
    for row in reader:
        print(row['姓名'], row['年龄'])

# 使用DictWriter写入
headers = ['姓名', '年龄', '城市']
with open('output.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.DictWriter(f, fieldnames=headers)
    writer.writeheader()
    writer.writerow({'姓名': '李四', '年龄': '30', '城市': '上海'})

3.3 处理特殊格式的CSV文件

不是所有的CSV文件都使用逗号分隔，csv模块可以灵活处理各种分隔符：

python复制# 使用分号作为分隔符
with open('data.csv', 'r', encoding='utf-8', newline='') as f:
    reader = csv.reader(f, delimiter=';')
    for row in reader:
        print(row)

# 处理带引号的字段
with open('data.csv', 'r', encoding='utf-8', newline='') as f:
    reader = csv.reader(f, quotechar='"', quoting=csv.QUOTE_MINIMAL)
    for row in reader:
        print(row)

4. 使用pandas处理Excel和CSV文件

pandas是Python数据分析的核心库，提供了更高级的表格数据处理功能。

4.1 基本读写操作

python复制import pandas as pd

# 读取Excel文件
excel_data = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 读取CSV文件
csv_data = pd.read_csv('data.csv')

# 写入Excel文件
excel_data.to_excel('output.xlsx', index=False)

# 写入CSV文件
csv_data.to_csv('output.csv', index=False)

4.2 处理多个工作表

Excel文件通常包含多个工作表，pandas可以方便地处理：

python复制# 读取所有工作表
all_sheets = pd.read_excel('data.xlsx', sheet_name=None)

# 获取特定工作表
sheet1 = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 将多个DataFrame写入不同工作表
with pd.ExcelWriter('output.xlsx') as writer:
    df1.to_excel(writer, sheet_name='Sheet1')
    df2.to_excel(writer, sheet_name='Sheet2')

4.3 数据清洗与转换

pandas提供了丰富的数据处理功能：

python复制# 筛选数据
filtered_data = data[data['年龄'] > 25]

# 添加新列
data['年龄段'] = pd.cut(data['年龄'], bins=[0, 20, 30, 40, 50, 100])

# 分组统计
grouped_data = data.groupby('城市')['年龄'].mean()

# 处理缺失值
data.fillna(0, inplace=True)  # 用0填充缺失值
data.dropna(inplace=True)  # 删除包含缺失值的行

5. 批量处理文件的实际案例

5.1 批量读取并合并多个CSV文件

python复制import os
import pandas as pd

# 获取目录下所有CSV文件
csv_files = [f for f in os.listdir('data_folder') if f.endswith('.csv')]

# 读取并合并所有CSV文件
all_data = pd.DataFrame()
for file in csv_files:
    file_path = os.path.join('data_folder', file)
    data = pd.read_csv(file_path)
    all_data = pd.concat([all_data, data], ignore_index=True)

# 保存合并后的数据
all_data.to_csv('combined_data.csv', index=False)

5.2 批量转换Excel文件为CSV

python复制import os
import pandas as pd

# 获取目录下所有Excel文件
excel_files = [f for f in os.listdir('excel_folder') if f.endswith(('.xlsx', '.xls'))]

# 转换为CSV
for file in excel_files:
    file_path = os.path.join('excel_folder', file)
    data = pd.read_excel(file_path)
    csv_file = os.path.splitext(file)[0] + '.csv'
    data.to_csv(os.path.join('csv_folder', csv_file), index=False)

5.3 批量处理Excel文件中的特定工作表

python复制import pandas as pd

# 定义要处理的文件和工作表
file_sheet_pairs = [
    ('file1.xlsx', 'Sheet1'),
    ('file2.xlsx', 'Data'),
    ('file3.xlsx', 'Results')
]

# 批量处理
results = []
for file, sheet in file_sheet_pairs:
    data = pd.read_excel(file, sheet_name=sheet)
    # 进行数据处理...
    processed_data = data.groupby('Category').sum()
    results.append(processed_data)

# 合并结果
final_result = pd.concat(results)
final_result.to_excel('final_result.xlsx')

6. 高级技巧与性能优化

6.1 处理大型CSV文件

对于非常大的CSV文件，可以使用分块读取：

python复制# 分块读取大型CSV文件
chunk_size = 100000  # 每次读取10万行
chunks = pd.read_csv('large_file.csv', chunksize=chunk_size)

for chunk in chunks:
    # 处理每个数据块
    process_chunk(chunk)

6.2 使用dtype参数优化内存

读取文件时指定列的数据类型可以显著减少内存使用：

python复制dtypes = {
    'id': 'int32',
    'name': 'category',
    'value': 'float32'
}
data = pd.read_csv('data.csv', dtype=dtypes)

6.3 多线程处理文件

对于大量文件的IO密集型操作，可以使用多线程加速：

python复制from concurrent.futures import ThreadPoolExecutor
import pandas as pd

def process_file(file_path):
    data = pd.read_csv(file_path)
    # 处理数据...
    return processed_data

file_paths = ['file1.csv', 'file2.csv', 'file3.csv']

with ThreadPoolExecutor(max_workers=4) as executor:
    results = list(executor.map(process_file, file_paths))

6.4 使用HDF5存储中间结果

对于需要多次处理的中间数据，HDF5格式比CSV更高效：

python复制# 存储数据
data.to_hdf('data.h5', key='df', mode='w')

# 读取数据
data = pd.read_hdf('data.h5', key='df')

7. 常见问题与解决方案

7.1 编码问题导致乱码

问题表现：读取文件时出现乱码或报错"UnicodeDecodeError"

解决方案：

尝试不同编码：'utf-8', 'gbk', 'gb2312', 'latin1'
使用chardet库自动检测编码：

python复制import chardet

with open('file.csv', 'rb') as f:
    result = chardet.detect(f.read(10000))
encoding = result['encoding']
data = pd.read_csv('file.csv', encoding=encoding)

7.2 Excel文件格式问题

问题表现：读取Excel文件时报错"BadZipFile"或"Unsupported format"

解决方案：

确保文件没有损坏
对于.xls文件使用xlrd，对于.xlsx文件使用openpyxl
尝试修复文件：

python复制# 使用openpyxl修复损坏的Excel文件
from openpyxl import load_workbook
wb = load_workbook('corrupted.xlsx', repair=True)
wb.save('repaired.xlsx')

7.3 处理大型Excel文件内存不足

问题表现：读取大型Excel文件时内存不足

解决方案：

使用read_excel的chunksize参数（仅适用于pandas 1.3+）
将Excel转换为CSV后处理
使用专门的库如pyexcel：

python复制import pyexcel as pe

# 分块读取大型Excel文件
for row in pe.get_sheet(file_name='large.xlsx'):
    process_row(row)

7.4 日期时间格式问题

问题表现：日期时间列读取后变成数字或格式不正确

解决方案：

明确指定日期时间列的格式：

python复制data = pd.read_excel('data.xlsx', parse_dates=['日期列'])

手动转换日期列：

python复制data['日期列'] = pd.to_datetime(data['日期列'], format='%Y-%m-%d')

8. 实际项目经验分享

在多年的Python开发中，我总结了以下处理Excel和CSV文件的实用经验：

文件备份：在修改原始文件前，总是先创建备份副本。我曾经因为脚本错误覆盖了原始数据文件，导致数据丢失。
数据验证：读取文件后立即检查数据行数和关键列是否有缺失值：

python复制print(f"总行数: {len(data)}")
print(data.isnull().sum())

进度显示：处理大量文件时，显示进度条让用户知道程序在运行：

python复制from tqdm import tqdm

for file in tqdm(file_list, desc="处理文件中"):
    process_file(file)

日志记录：将处理过程中的重要信息写入日志文件，便于排查问题：

python复制import logging

logging.basicConfig(filename='process.log', level=logging.INFO)
logging.info(f"开始处理文件: {filename}")

异常处理：对可能出错的操作添加异常捕获：

python复制try:
    data = pd.read_excel(file_path)
except Exception as e:
    print(f"无法读取文件 {file_path}: {str(e)}")
    continue

性能监控：对于长时间运行的任务，监控内存使用情况：

python复制import psutil

process = psutil.Process()
print(f"内存使用: {process.memory_info().rss / 1024 / 1024:.2f} MB")

结果验证：处理完成后，抽样检查结果数据的正确性：

python复制# 随机检查5行数据
print(data.sample(5))

代码复用：将常用的处理逻辑封装成函数或类，便于在不同项目中复用：

python复制class ExcelProcessor:
    def __init__(self, file_path):
        self.file_path = file_path
        self.data = None
    
    def load(self):
        self.data = pd.read_excel(self.file_path)
    
    def process(self):
        # 处理逻辑...
        pass
    
    def save(self, output_path):
        self.data.to_excel(output_path, index=False)

Python高效处理Excel与CSV文件实战指南

1. Python处理Excel和CSV文件的必要性

2. 准备工作与环境配置

2.1 安装必要的Python库

2.2 文件编码问题

3. 使用csv模块处理CSV文件

3.1 基本读写操作

3.2 处理带标题的CSV文件

3.3 处理特殊格式的CSV文件

4. 使用pandas处理Excel和CSV文件

4.1 基本读写操作

4.2 处理多个工作表

4.3 数据清洗与转换

5. 批量处理文件的实际案例

5.1 批量读取并合并多个CSV文件

5.2 批量转换Excel文件为CSV

5.3 批量处理Excel文件中的特定工作表

6. 高级技巧与性能优化

6.1 处理大型CSV文件

6.2 使用dtype参数优化内存

6.3 多线程处理文件

6.4 使用HDF5存储中间结果

7. 常见问题与解决方案

7.1 编码问题导致乱码

7.2 Excel文件格式问题

7.3 处理大型Excel文件内存不足

7.4 日期时间格式问题

8. 实际项目经验分享

内容推荐