Python内置statistics模块：数据分析的瑞士军刀-代码聚汇网

Python内置statistics模块：数据分析的瑞士军刀

Zhaoyang Wang

1. 为什么需要掌握statistics模块

在数据分析的日常工作中，我们经常需要处理各种统计计算。虽然NumPy、Pandas等第三方库功能强大，但对于简单的统计需求来说，Python内置的statistics模块就是一把瑞士军刀。这个从Python 3.4版本开始引入的标准库模块，包含了最常用的统计函数，无需额外安装即可使用。

我刚开始用Python做数据分析时，经常为了计算平均数这样简单的需求去安装庞大的第三方库。后来发现statistics模块后，工作效率提升了不少。特别是在处理小型数据集或快速原型开发时，这个模块的优势尤为明显。它不仅能处理常规的数值计算，还支持分数和小数的高精度运算，这在金融和科学计算中特别有用。

2. 模块基础与数据准备

2.1 模块导入与数据类型

使用statistics模块前，我们需要先导入它。虽然可以导入整个模块，但我建议只导入需要的函数，这样代码更清晰：

python复制from statistics import mean, median, stdev

模块支持多种数值类型：

整数(int)
浮点数(float)
分数(fractions.Fraction)
小数(decimal.Decimal)

这里有个实际经验：当处理财务数据时，建议将数据转换为Decimal类型，避免浮点数精度问题：

python复制from decimal import Decimal
prices = [Decimal('19.99'), Decimal('29.95'), Decimal('39.99')]

2.2 数据清洗与异常值处理

真实数据往往不完美。在应用统计函数前，我们需要先清洗数据：

python复制data = [1, 2, 3, None, 5, 'N/A', 7]

# 过滤掉非数值数据
clean_data = [x for x in data if isinstance(x, (int, float))]

对于异常值，可以使用标准差方法检测：

python复制from statistics import mean, stdev

def remove_outliers(data):
    m = mean(data)
    s = stdev(data)
    return [x for x in data if m - 2*s <= x <= m + 2*s]

3. 集中趋势度量

3.1 平均数计算

statistics模块提供了三种平均数计算方法：

mean() - 算术平均数

python复制temps = [21, 22, 23, 24, 25]
avg_temp = mean(temps)  # 返回23.0

geometric_mean() - 几何平均数（Python 3.8+）

python复制growth_rates = [1.1, 1.05, 1.2]
geo_mean = geometric_mean(growth_rates)  # 适用于增长率计算

harmonic_mean() - 调和平均数

python复制speeds = [30, 40, 50]
harm_mean = harmonic_mean(speeds)  # 适用于速率计算

注意：当数据集中包含负数时，geometric_mean()会报错，这是数学上的限制。

3.2 中位数与分位数

中位数对异常值不敏感，更适合偏态分布数据：

python复制salaries = [35000, 40000, 42000, 45000, 500000]
median_salary = median(salaries)  # 返回42000，比平均数更合理

对于偶数个数据点，median()会自动计算中间两个数的平均值。如果需要更细分的分位数，可以使用quantiles()：

python复制data = range(1, 101)
quartiles = quantiles(data, n=4)  # 返回[25.75, 50.5, 75.25]
deciles = quantiles(data, n=10)   # 返回10个十分位数

4. 离散程度度量

4.1 方差与标准差

方差和标准差衡量数据的离散程度：

python复制scores = [85, 90, 78, 92, 88]

# 总体方差/标准差
pvariance(scores)  # 总体方差
pstdev(scores)     # 总体标准差

# 样本方差/标准差（更常用）
variance(scores)   # 样本方差
stdev(scores)      # 样本标准差

关键区别：当计算整个总体的离散度时用p开头的函数，计算样本时用不带p的函数。这是统计学上的重要概念。

4.2 极差与平均绝对偏差

虽然模块没有直接提供极差函数，但可以轻松实现：

python复制data_range = max(data) - min(data)

平均绝对偏差(MAD)是另一种离散度度量：

python复制from statistics import mean

def mean_absolute_deviation(data):
    m = mean(data)
    return mean(abs(x - m) for x in data)

5. 高级统计函数

5.1 协方差与相关系数

Python 3.10引入了协方差和相关系数计算：

python复制x = [1, 2, 3, 4, 5]
y = [5, 4, 3, 2, 1]

covariance(x, y)      # 返回-2.5
correlation(x, y)     # 返回-1.0（完全负相关）

5.2 线性回归

statistics模块还提供了简单的线性回归计算：

python复制x = [1, 2, 3, 4, 5]
y = [2, 4, 5, 4, 5]

slope, intercept = linear_regression(x, y)
# slope = 0.6, intercept = 2.2

这个功能虽然简单，但对于快速分析两个变量间的关系非常有用。

6. 特殊数据类型处理

6.1 分数与小数运算

对于需要高精度的场景，模块支持分数和小数运算：

python复制from fractions import Fraction
from decimal import Decimal

fractions = [Fraction(1, 2), Fraction(3, 4)]
mean(fractions)  # 返回Fraction(5, 8)

decimals = [Decimal('1.5'), Decimal('2.75')]
mean(decimals)   # 返回Decimal('2.125')

6.2 加权统计量

虽然模块没有内置加权函数，但可以这样实现：

python复制def weighted_mean(data, weights):
    return sum(x * w for x, w in zip(data, weights)) / sum(weights)

7. 性能优化与大型数据集

虽然statistics模块适合中小型数据集，但对于大型数据(>100万点)，建议：

使用更高效的算法：

python复制# 流式计算均值（内存友好）
def streaming_mean(iterable):
    total = 0
    count = 0
    for x in iterable:
        total += x
        count += 1
    return total / count

考虑使用NumPy或Pandas处理超大数据集

8. 实际应用案例

8.1 学生成绩分析

python复制grades = [88, 92, 75, 96, 84, 90, 72, 85]

print(f"平均分: {mean(grades):.1f}")
print(f"中位数: {median(grades)}")
print(f"标准差: {stdev(grades):.1f}")
print(f"成绩分布: {quantiles(grades, n=4)}")

8.2 销售数据分析

python复制monthly_sales = [12500, 13800, 14200, 15600, 18900, 21000]

growth_rates = [new/old for old, new in zip(monthly_sales[:-1], monthly_sales[1:])]
avg_growth = geometric_mean(growth_rates)

9. 常见问题与解决方案

空数据集错误：

python复制try:
    mean([])
except statistics.StatisticsError as e:
    print(f"错误: {e}")  # 会捕获"mean requires at least one data point"

类型不一致问题：

python复制mixed_data = [1, 2.5, Fraction(3,4)]
mean(mixed_data)  # 自动转换为float计算

NaN值处理：

python复制import math
data = [1, 2, float('nan'), 4]
clean_data = [x for x in data if not math.isnan(x)]

10. 模块局限性及替代方案

虽然statistics模块很方便，但也有局限：

不支持多维数组运算
缺少高级统计检验
大数据集性能一般

替代方案：

NumPy/SciPy：科学计算
Pandas：数据分析
statsmodels：统计建模

在实际项目中，我通常会根据需求混合使用这些工具。对于简单的描述性统计，statistics模块仍然是快速实现的首选。