用Python的statsmodels库做STL分解，保姆级教程带你搞定航空客流数据

何欣颜

用Python的statsmodels库做STL分解：航空客流数据实战指南

当你面对一张密密麻麻的航空客流数据表时，是否曾好奇这些数字背后隐藏着怎样的规律？每个月客流量的起伏是纯属偶然，还是暗含着某种周期性模式？今天，我们将用Python中的statsmodels库，像拆解钟表一样剖析这些数据，揭示其中的季节规律、长期趋势和随机波动。

1. 准备工作与环境搭建

在开始STL分解之前，我们需要确保工具就位。假设你已经安装了Python 3.7或更高版本，接下来通过pip安装必要的库：

bash复制pip install statsmodels pandas matplotlib numpy

经典的航空乘客数据集（AirPassengers.csv）可以从多个数据源获取，这里我们使用statsmodels自带的示例数据集：

python复制import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.datasets import get_rdataset

# 获取航空乘客数据
data = get_rdataset("AirPassengers")
df = data.data
df['Month'] = pd.to_datetime(df['time'])
df.set_index('Month', inplace=True)

提示：如果你的网络环境无法直接获取该数据集，可以手动下载CSV文件并用pd.read_csv()加载。

让我们先看一眼原始数据的样貌：

python复制plt.figure(figsize=(12, 6))
plt.plot(df.index, df['value'], label='原始数据')
plt.title('1949-1960年国际航空乘客量')
plt.xlabel('日期')
plt.ylabel('乘客数（千）')
plt.grid(True)
plt.legend()
plt.show()

这段代码会输出一条明显呈上升趋势并带有周期性波动的曲线。仔细观察，你会发现每年夏季（6-8月）都会出现一个客流高峰，这正是我们要分解的季节性成分。

2. STL分解核心参数详解

STL（Seasonal-Trend decomposition using LOESS）是一种鲁棒性强的时间序列分解方法，特别适合处理有复杂季节性的数据。statsmodels库中的STL类主要接受以下关键参数：

参数名	数据类型	说明	默认值	设置建议
endog	array-like	待分解的时间序列	无	必须提供
period	int	季节性周期	None	月度数据通常为12
seasonal	int	季节性平滑窗口	7	必须为奇数，建议≥7
trend	int	趋势平滑窗口	None	通常取period的1.5倍
robust	bool	是否使用鲁棒性分解	False	有异常值时设为True

对于我们的航空乘客数据，典型的初始化代码如下：

python复制from statsmodels.tsa.seasonal import STL

result = STL(
    endog=df['value'],
    period=12,       # 月度数据的年度周期
    seasonal=13,     # 比默认稍大的平滑窗口
    trend=19,        # period的1.5倍左右
    robust=True      # 增强对异常值的鲁棒性
).fit()

注意：当输入数据是Pandas Series且具有DatetimeIndex时，period参数可以自动推断。但显式指定能避免意外错误。

3. 分解结果可视化与分析

拟合完成后，我们可以直接查看分解后的三个分量：

python复制# 绘制分解结果
plt.figure(figsize=(12, 8))
result.plot()
plt.tight_layout()
plt.show()

这张图会显示四个子图：原始数据、趋势成分、季节成分和残差。仔细观察可以发现：

趋势成分：呈现明显的上升曲线，反映航空业整体增长
季节成分：每年重复出现的波形，夏季高峰尤为突出
残差成分：相对均匀分布的随机波动

让我们把分解结果保存到DataFrame中，方便后续分析：

python复制df['trend'] = result.trend
df['seasonal'] = result.seasonal
df['residual'] = result.resid

3.1 残差诊断

健康的分解应该使残差接近随机噪声。我们可以通过以下检查：

python复制print(f"残差均值：{df['residual'].mean():.4f}")
print(f"残差标准差：{df['residual'].std():.4f}")

# 残差直方图
plt.figure(figsize=(10, 4))
plt.subplot(1, 2, 1)
df['residual'].hist(bins=20)
plt.title('残差分布')

# 残差Q-Q图
plt.subplot(1, 2, 2)
from scipy import stats
stats.probplot(df['residual'].dropna(), plot=plt)
plt.tight_layout()

理想情况下，残差均值应接近0，分布近似正态。如果出现明显偏离，可能需要调整seasonal或trend参数。

4. 分解质量评估与业务解读

4.1 趋势和季节强度量化

我们可以用数学方法量化趋势和季节性的显著程度：

python复制# 计算去趋势数据
df['detrended'] = df['value'] - df['trend']

# 计算去季节数据
df['deseasonalized'] = df['value'] - df['seasonal']

# 计算趋势强度
trend_strength = max(0, 1 - (df['residual'].var() / df['deseasonalized'].var()))

# 计算季节强度
seasonal_strength = max(0, 1 - (df['residual'].var() / df['detrended'].var()))

print(f"趋势强度：{trend_strength:.3f}")
print(f"季节强度：{seasonal_strength:.3f}")

这两个指标范围在0到1之间：

趋势强度0.95：极强的上升趋势
季节强度0.91：非常显著的季节性模式

4.2 季节性峰值识别

找出每年客流最高的月份：

python复制seasonal_component = df['seasonal'].values[:12]  # 取第一年的季节成分
peak_month = seasonal_component.argmax() + 1     # 月份从1开始计数
print(f"季节性峰值月份：{peak_month}月")

结果显示7月为客流高峰，这与旅游旺季的实际情况相符。航空公司可以利用这一信息优化：

7月增加航班班次
5-6月提前进行促销
高峰前完成机队维护

5. 高级技巧与疑难排解

5.1 处理非整数周期

当季节性周期不是整数时（如每日数据的年度周期365.24），可以：

python复制result = STL(
    endog=df['value'],
    period=365.24,
    seasonal=21,  # 更大的平滑窗口
    ...
).fit()

5.2 多重季节性分解

对于同时具有周和年周期的数据（如每日电力负荷），可先分解主要周期，再对残差二次分解：

python复制# 第一次分解年度周期
result_yearly = STL(endog=df['load'], period=365).fit()

# 对残差分解周周期
result_weekly = STL(endog=result_yearly.resid, period=7).fit()

5.3 常见错误处理

错误1："ValueError: period must be a positive integer"

原因：period未正确设置
解决：检查数据频率，明确指定period参数

错误2：分解后残差呈现明显模式

可能原因：
- seasonal参数太小，尝试增加该值
- 数据存在未被捕捉的季节性

解决方案：

python复制STL(..., seasonal=15, trend=21).fit()  # 增大平滑窗口

错误3：趋势成分过于波动

调整方向：
- 增大trend参数
- 尝试robust=True减少异常值影响

在实际项目中，我发现设置seasonal=13, trend=19的组合对大多数月度数据效果良好。当数据存在明显异常点时，启用robust选项能显著改善分解质量。

已经到底了哦

精选内容

1 【Arduino实战】AB相编码器位移测量：从脉冲到毫米的精准转换 2 避坑指南：CH32V系列定时器PWM输出，为什么你直接操作寄存器会失败？3 搞懂CAN-TP参数N_As/N_Ar，你的车载诊断通信效率能翻倍？4 【Allegro 17.4实战指南】SMD焊盘补偿计算与封装精准绘制 5 从“千手观音”到拓扑排序：一道天梯赛L3真题如何帮你彻底搞懂字典序优先队列 6 从靶场搭建到内存马注入：一次搞定Shiro漏洞(CVE-2016-4437)的完整实战与修复指南 7 【实战解析】Linux服务器GPU驱动版本冲突：NVML初始化失败的深度排查与在线修复指南 8 gRPC实战：从零搭建跨语言微服务通信环境 9 Vue3 登录安全升级：从零构建可配置的图形验证码组件 10 ROS2与PX4深度集成实战：从环境搭建到首个数据订阅