【Python】shutil.make_archive() 实战指南：从基础到高级应用

刘良运

1. 为什么你需要掌握shutil.make_archive()

在日常开发中，文件打包是个绕不开的活。我见过不少新手一遇到需要打包文件的任务，就急着去找第三方库，其实Python标准库里的shutil.make_archive()已经能解决90%的问题。这个函数就像个瑞士军刀，简单几行代码就能把文件夹变成zip、tar.gz等各种格式的压缩包。

上周我帮同事处理一个自动化部署脚本，原本他们用subprocess调系统命令打包，不仅代码臃肿，还在Windows服务器上报错。换成shutil.make_archive()后，代码量减少了三分之二，而且跨平台运行稳如老狗。这就是标准库的魅力——不用装额外依赖，写出来的代码又干净又可靠。

2. 基础用法：5分钟上手文件打包

2.1 最简使用姿势

先看个最简单的例子，把当前目录下的docs文件夹打包成zip：

python复制import shutil

shutil.make_archive('docs_backup', 'zip', '.', 'docs')

这行代码干了三件事：

创建名为docs_backup.zip的文件
使用zip格式压缩
只打包当前目录下的docs文件夹

实测发现，如果docs_backup.zip已存在，函数会直接覆盖而不警告。所以重要文件记得先备份，这个坑我踩过。

2.2 参数详解（附避坑指南）

base_name：

不要加文件扩展名，函数会根据format自动加
可以用绝对路径（推荐）或相对路径
权限问题：确保对目标目录有写权限，我遇到过PermissionError就是因为脚本没权限写/var目录

format：

常用格式对比：

格式压缩率速度适用场景

zip 中快 Windows环境

gztar 较高中 Linux日志打包

bztar 最高慢需要极致压缩率
注意：bztar在某些老旧系统可能不支持

格式	压缩率	速度	适用场景
zip	中	快	Windows环境
gztar	较高	中	Linux日志打包
bztar	最高	慢	需要极致压缩率

root_dir：

相当于cd到这个目录再执行打包
设为None时用当前工作目录
路径最好用绝对路径，相对路径容易出幺蛾子

base_dir：

要打包的特定子目录
设为None时打包整个root_dir
路径是相对于root_dir的

3. 高级技巧：解决实际项目难题

3.1 处理特殊文件结构

假设有这样的目录：

code复制/project
  /src
    __init__.py
    utils.py
  /tests
    test_utils.py
  README.md

只想打包src和README.md怎么办？可以这样操作：

python复制import os
from tempfile import mkdtemp

# 创建临时目录组织文件结构
tmp_dir = mkdtemp()
os.makedirs(os.path.join(tmp_dir, 'project'))
os.symlink('/project/src', os.path.join(tmp_dir, 'project/src'))
os.symlink('/project/README.md', os.path.join(tmp_dir, 'project/README.md'))

# 打包临时目录
shutil.make_archive(
    base_name='/output/project',
    format='zip',
    root_dir=tmp_dir,
    base_dir='project'
)

这个技巧在Docker镜像构建时特别有用，可以精确控制打包内容。

3.2 动态生成压缩包名

结合datetime自动生成带时间戳的包名：

python复制from datetime import datetime

timestamp = datetime.now().strftime('%Y%m%d_%H%M')
shutil.make_archive(
    f'backup_{timestamp}',
    'gztar',
    '/var/log/myapp'
)

我在自动化部署脚本里常用这招，配合日志轮转美滋滋。

4. 性能优化与异常处理

4.1 大文件打包优化

当处理GB级日志文件时，直接打包可能内存爆炸。这时可以用生成器配合低级API：

python复制def big_file_handler():
    for root, dirs, files in os.walk('/var/log/bigdata'):
        for file in files:
            yield os.path.join(root, file)

with tarfile.open('bigdata.tar.gz', 'w:gz') as tar:
    for filepath in big_file_handler():
        tar.add(filepath, arcname=os.path.basename(filepath))

虽然代码变复杂了，但内存占用从2GB降到了200MB左右。

4.2 常见报错解决方案

OSError: [Errno 13] Permission denied

检查目标目录写权限
在Linux下试试sudo运行
或者修改目标目录权限：chmod 777 /output

FileNotFoundError

确认root_dir和base_dir路径存在
打印os.listdir()检查当前目录内容
路径最好用os.path.abspath转成绝对路径

LargeZipFile（zip格式特有）

单个文件超过4GB会报错
换用tar格式或者分卷压缩

5. 真实项目案例：自动化部署系统

去年我开发过一个Web应用的自动部署系统，核心打包代码如下：

python复制def package_webapp(version, env='prod'):
    build_dir = f'/tmp/build_{version}'
    os.makedirs(build_dir, exist_ok=True)
    
    # 复制必要文件
    shutil.copytree('./static', f'{build_dir}/static')
    shutil.copy2('app.py', build_dir)
    
    # 根据环境选择配置文件
    config_file = 'config_prod.json' if env == 'prod' else 'config_dev.json'
    shutil.copy2(config_file, f'{build_dir}/config.json')
    
    # 生成压缩包
    archive_path = shutil.make_archive(
        base_name=f'/deployments/webapp_{version}_{env}',
        format='gztar',
        root_dir=build_dir
    )
    
    # 清理临时文件
    shutil.rmtree(build_dir)
    return archive_path

这个方案在20多个微服务中稳定运行至今，关键点在于：

使用临时目录避免污染源代码
根据环境变量动态选择配置
最后一定要清理临时文件（血泪教训）

6. 替代方案对比：什么情况下不用make_archive

虽然shutil.make_archive()很强大，但有些场景可能需要更专业的工具：

需要加密压缩时

用pyzipper库处理zip密码保护

python复制import pyzipper
with pyzipper.AESZipFile('secret.zip', 'w', encryption=pyzipper.WZ_AES) as zf:
    zf.setpassword(b"password")
    zf.write('secret.txt')

需要分卷压缩时

用tarfile+自定义逻辑实现

python复制import tarfile
MAX_SIZE = 100 * 1024 * 1024  # 100MB

with tarfile.open('bigdata.tar', 'w') as tar:
    tar.add('/data', arcname='')
    if os.path.getsize('bigdata.tar') > MAX_SIZE:
        split_tar_file()  # 自定义分卷逻辑

需要处理特殊属性时

比如保留Linux文件权限、owner信息
这时候直接调用tar命令可能更简单

7. 调试技巧：如何看打包结果是否符合预期

经常遇到打包后文件路径不对的情况，我总结了个检查清单：

先用dry_run模式预览

python复制shutil.make_archive('test', 'zip', '.', dry_run=True)
# 会打印操作日志但不实际执行

解压测试包检查结构

bash复制unzip -l test.zip  # 查看zip内容
tar -tf test.tar.gz  # 查看tar内容

检查常见问题：

是否包含多余的父目录
软链接是否被正确解析
文件权限是否保留

路径处理黄金法则：

所有路径参数都用os.path.abspath转绝对路径
用os.path.join拼接路径，不要手动拼字符串
打印root_dir和base_dir的os.listdir()确认内容

8. 最佳实践：我总结的10条经验

路径处理：永远使用绝对路径，相对路径是万恶之源
格式选择：Windows环境用zip，Linux环境用gztar
异常处理：一定要包裹try-except捕获PermissionError
临时文件：用tempfile.mkdtemp创建临时目录，用完即删
日志记录：添加logger参数记录打包过程
性能监控：大文件打包时打印进度信息
版本兼容：注意Python 3.5-3.7对bztar的支持差异
安全防护：检查zip炸弹（特别处理用户上传的压缩包）
资源清理：用contextlib确保临时文件被清理
测试覆盖：至少测试空目录、大文件、特殊字符文件名三种情况

最后分享一个真实踩坑案例：有次自动化脚本打包node_modules目录，50万个小文件直接把服务器IO打满。后来改成先检查文件数量，超过1万个就警告确认。所以记住——打包操作不是无害的，生产环境执行前要多加小心。

已经到底了哦

精选内容

1 别再到处找破解版了！手把手教你用官方免费版XMind搞定思维导图（附高效模板）2 告别混乱！用OrCAD Capture高效管理多版本原理图与元器件库的实战技巧 3 实战指南：MATLAB频域分析与LTI系统响应可视化 4 从Frame Debugger到Profiler UI：像侦探一样排查你的UGUI合批问题 5 用STM32CubeMX和HAL库5分钟搞定DHT11温湿度读取（附完整代码）6 从LAS到3DTiles：高效转换激光点云数据的实战指南 7 实战指南：用pyttsx3为你的Python应用注入“声音”灵魂 8 别再只调PID了！手把手教你用move_base和amcl搞定ROS机器人导航（附完整YAML配置）9 SomeIpXf：AUTOSAR SOA架构下的智能通信枢纽 10 从语谱图到Mel谱：深度学习语音处理的核心特征工程