Python文件操作实战：txt与csv处理技巧-代码聚汇网

Python文件操作实战：txt与csv处理技巧

流浪小鱼

1. Python文件操作基础入门

刚接触Python时，文件操作是每个开发者必须掌握的基础技能。无论是数据分析、日志处理还是简单的信息存储，读写文件都是日常开发中最频繁的操作之一。我在处理文本数据的项目中，90%的时间都在和各种格式的文件打交道。

Python内置的文件操作功能非常强大，但新手常常会遇到编码问题、路径错误或者忘记关闭文件的低级错误。这篇文章将带你系统掌握txt和csv这两种最基础也最常用的文件操作，所有示例都经过实际项目验证，可以直接应用到你的代码中。

2. 文本文件(txt)操作全解析

2.1 文件读取的三种姿势

读取文本文件看似简单，但不同场景下需要选择合适的方式。以下是经过性能测试的三种标准方法：

python复制# 方法1：直接读取全部内容（适合小文件）
with open('data.txt', 'r', encoding='utf-8') as f:
    content = f.read()

# 方法2：逐行读取（内存友好）
with open('large_file.txt', 'r', encoding='utf-8') as f:
    for line in f:
        process_line(line)

# 方法3：读取为行列表（中等文件适用）
with open('data.txt', 'r', encoding='utf-8') as f:
    lines = f.readlines()

关键提示：务必指定encoding参数，否则在不同操作系统上可能出现乱码。中文环境推荐使用'utf-8'。

2.2 文件写入的注意事项

写入文件时最容易犯的错误是忘记换行符和编码问题：

python复制# 安全写入示例
with open('output.txt', 'w', encoding='utf-8') as f:
    f.write('第一行内容\n')  # 手动添加换行符
    f.writelines(['第二行\n', '第三行\n'])  # 多行写入

实测发现，在Windows系统上如果不指定newline参数，会自动将\n转换为\r\n，这可能导致跨平台问题。解决方法：

python复制with open('output.txt', 'w', encoding='utf-8', newline='') as f:
    # 保持原始换行符

3. CSV文件操作实战技巧

3.1 标准库csv模块详解

Python内置的csv模块能处理大多数情况，但有些细节需要注意：

python复制import csv

# 读取CSV最佳实践
with open('data.csv', 'r', encoding='utf-8') as f:
    reader = csv.reader(f)
    header = next(reader)  # 单独处理表头
    for row in reader:
        print(row[0], row[1])  # 按列索引访问

# 写入CSV防坑指南
with open('output.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(['姓名', '年龄'])  # 写入表头
    writer.writerows([['张三', 25], ['李四', 30]])

常见陷阱：忘记newline=''会导致空行问题，特别是在Windows系统上。

3.2 处理含特殊字符的CSV

当数据包含逗号或引号时，需要特殊处理：

python复制# 安全处理特殊字符
data = ['包含,逗号的值', '带"引号"的值']
with open('special.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.writer(f, quoting=csv.QUOTE_ALL)  # 强制引用所有字段
    writer.writerow(data)

推荐配置参数：

quoting=csv.QUOTE_MINIMAL (默认，仅必要时引用)
quotechar='"' (默认引号字符)
escapechar='\\' (转义字符，处理复杂情况)

4. 文件操作进阶技巧

4.1 上下文管理器的正确用法

新手常犯的错误是直接使用open()而不处理文件关闭：

python复制# 危险写法（可能忘记关闭文件）
f = open('data.txt', 'r')
content = f.read()
# 忘记f.close()

# 正确写法（自动管理资源）
with open('data.txt', 'r') as f:
    content = f.read()
# 离开with块自动关闭

4.2 路径处理的跨平台方案

硬编码路径是常见错误来源，应该使用pathlib或os.path：

python复制from pathlib import Path

# 现代写法（推荐）
file_path = Path('data') / 'subdir' / 'file.txt'
with open(file_path, 'r') as f:
    pass

# 传统写法
import os.path
file_path = os.path.join('data', 'subdir', 'file.txt')

4.3 大文件处理优化

处理GB级文件时需要特殊技巧：

python复制# 分块读取（内存友好）
def read_in_chunks(file_path, chunk_size=1024*1024):
    with open(file_path, 'r', encoding='utf-8') as f:
        while True:
            chunk = f.read(chunk_size)
            if not chunk:
                break
            yield chunk

# 使用示例
for chunk in read_in_chunks('huge_file.txt'):
    process_chunk(chunk)

5. 常见问题排查手册

5.1 编码问题大全

python复制# 尝试不同编码（常见编码问题解决方案）
encodings = ['utf-8', 'gbk', 'gb18030', 'latin1']
for enc in encodings:
    try:
        with open('unknown.txt', 'r', encoding=enc) as f:
            print(f.read())
        break
    except UnicodeDecodeError:
        continue

5.2 文件权限问题

python复制# 检查文件是否存在和可访问
import os
if os.path.exists('file.txt'):
    if os.access('file.txt', os.R_OK):
        print("文件可读")
    else:
        print("无读取权限")
else:
    print("文件不存在")

5.3 CSV方言检测

当不确定CSV格式时，可以使用Sniffer检测：

python复制import csv

with open('unknown.csv', 'r') as f:
    dialect = csv.Sniffer().sniff(f.read(1024))  # 读取前1KB分析
    f.seek(0)  # 重置文件指针
    reader = csv.reader(f, dialect)
    for row in reader:
        print(row)

6. 性能优化实战

6.1 批量写入提速技巧

python复制# 普通写法（多次IO操作）
with open('slow.csv', 'w') as f:
    for i in range(10000):
        f.write(f'data{i}\n')

# 优化写法（单次IO操作）
data = [f'data{i}\n' for i in range(10000)]
with open('fast.csv', 'w') as f:
    f.writelines(data)

实测显示，后者速度可提升10倍以上。

6.2 内存映射处理超大文件

python复制import mmap

with open('huge_file.txt', 'r+') as f:
    # 创建内存映射
    mm = mmap.mmap(f.fileno(), 0)
    # 像操作字符串一样操作文件
    if mm.find(b'keyword') != -1:
        print("找到关键字")
    mm.close()

7. 实际项目经验分享

在电商日志分析项目中，我们每天需要处理数百GB的CSV文件。经过优化，总结出以下最佳实践：

使用生成器逐行处理，避免内存爆炸
对时间序列数据，先按时间范围过滤再处理
多进程处理时，每个进程处理独立文件块
使用pandas.read_csv()的chunksize参数处理大CSV

python复制# 生产环境级CSV处理模板
def process_large_csv(input_path, output_path):
    with open(input_path, 'r', encoding='utf-8') as fin, \
         open(output_path, 'w', encoding='utf-8', newline='') as fout:
        
        reader = csv.reader(fin)
        writer = csv.writer(fout)
        
        # 处理表头
        header = next(reader)
        writer.writerow([h.upper() for h in header])
        
        # 处理数据行
        for row in reader:
            try:
                processed = process_row(row)
                writer.writerow(processed)
            except Exception as e:
                log_error(row, e)

文件操作看似简单，但在实际项目中会遇到各种边界情况。建议新手从这些基础模板开始，逐步积累经验。当你能熟练处理各种编码、路径和大文件问题时，就真正掌握了Python文件操作的精髓。