用Python做A/B测试：手把手教你用二项分布检验广告点击率差异（附完整代码）

申月有五

用Python做A/B测试：手把手教你用二项分布检验广告点击率差异（附完整代码）

在互联网产品的迭代优化中，A/B测试已经成为验证新功能、新文案或新广告位效果的标准方法。作为产品经理或数据分析师，你可能经常需要回答这样的问题：新版广告位的点击率是否显著高于旧版？红色按钮的转化率是否真的比蓝色按钮更好？这时候，二项分布假设检验就是你工具箱中的利器。

本文将从一个真实的广告点击率对比案例出发，带你完整走一遍A/B测试的数据分析流程。不同于教科书式的统计理论讲解，我们会聚焦于如何用Python实现二项分布检验，更重要的是，如何将统计结论转化为业务决策语言。毕竟在实际工作中，"统计显著"并不总是等于"业务有意义"。

1. A/B测试与二项分布基础

在互联网场景下，A/B测试的核心是比较两个版本（A和B）在某个指标上的表现差异。对于点击率（CTR）这样的指标，每次展示可以看作一次伯努利试验（点击或不点击），而总点击次数则服从二项分布。

二项分布的关键参数：

n：试验次数（广告展示量）
p：每次试验成功的概率（点击概率）
k：成功的次数（实际点击量）

假设我们有两个广告版本：

版本A：展示1000次，点击120次
版本B：展示1050次，点击150次

我们想知道版本B的点击率是否显著高于版本A。这里的"显著"不是主观判断，而是需要通过统计检验来验证的。

注意：A/B测试前必须确保两个版本是同时期随机分流的，避免时间因素或用户群体差异干扰结果

2. 假设检验的实战步骤

2.1 建立统计假设

任何假设检验都需要先明确：

原假设H₀：p₁ = p₂（两个版本的点击率无差异）
备择假设H₁：p₁ ≠ p₂（两个版本的点击率有差异）

这里我们选择双侧检验，因为事先不确定哪个版本更好。如果业务上已经确定只关心"B是否优于A"，可以使用单侧检验。

2.2 计算关键指标

首先计算各版本的点击率及合并点击率：

python复制# 输入数据
n_A, clicks_A = 1000, 120  # 版本A
n_B, clicks_B = 1050, 150  # 版本B

# 计算点击率
p_A = clicks_A / n_A
p_B = clicks_B / n_B
p_pool = (clicks_A + clicks_B) / (n_A + n_B)

print(f"版本A点击率: {p_A:.4f}")
print(f"版本B点击率: {p_B:.4f}") 
print(f"合并点击率: {p_pool:.4f}")

输出结果：

code复制版本A点击率: 0.1200
版本B点击率: 0.1429
合并点击率: 0.1317

2.3 执行Z检验

对于大样本量的点击率数据，可以使用正态近似计算Z统计量：

python复制from scipy.stats import norm
import numpy as np

# 计算标准误
SE = np.sqrt(p_pool * (1 - p_pool) * (1/n_A + 1/n_B))

# 计算Z分数
z_score = (p_B - p_A) / SE

# 计算p值（双侧检验）
p_value = 2 * norm.cdf(-abs(z_score))

print(f"Z分数: {z_score:.4f}")
print(f"P值: {p_value:.4g}")

输出结果：

code复制Z分数: 1.9635
P值: 0.04954

3. 结果解读与业务决策

3.1 统计显著性判断

假设我们选择显著性水平α=0.05：

P值(0.0495) < α(0.05) → 拒绝原假设
结论：两个版本的点击率差异具有统计显著性

但统计显著是否意味着我们应该立即采用版本B？不一定，还需要考虑：

业务显著性：

绝对差异：点击率提升2.29个百分点
相对提升：(0.1429-0.1200)/0.1200 ≈ 19.1%
预计每月增加点击量：假设每月展示量100万，可增加约2290次点击

成本收益分析：

新版本开发/维护成本
每次点击的预估收益
用户长期体验影响

3.2 常见误区规避

样本量不足：

小样本容易产生偶然差异
可使用功效分析预先计算所需样本量

python复制from statsmodels.stats.power import tt_ind_solve_power

# 假设我们想检测点击率从12%提升到14%
effect_size = 0.02 / np.sqrt(p_pool*(1-p_pool))
required_n = tt_ind_solve_power(
    effect_size=effect_size,
    alpha=0.05,
    power=0.8,
    ratio=1.0
)
print(f"每组所需最小样本量: {int(required_n)}")

多重检验问题：

同时测试多个指标时，假阳性率增加
可使用Bonferroni校正等方法调整显著性水平

4. 完整代码与进阶技巧

4.1 一键式A/B测试函数

将上述流程封装成可重用函数：

python复制def ab_test(clicks_A, n_A, clicks_B, n_B, alpha=0.05):
    from scipy.stats import norm
    import numpy as np
    
    p_A = clicks_A / n_A
    p_B = clicks_B / n_B
    p_pool = (clicks_A + clicks_B) / (n_A + n_B)
    
    SE = np.sqrt(p_pool * (1 - p_pool) * (1/n_A + 1/n_B))
    z_score = (p_B - p_A) / SE
    p_value = 2 * norm.cdf(-abs(z_score))
    
    return {
        'p_A': p_A,
        'p_B': p_B,
        'diff': p_B - p_A,
        'rel_diff': (p_B - p_A)/p_A,
        'z_score': z_score,
        'p_value': p_value,
        'significant': p_value < alpha
    }

# 使用示例
result = ab_test(120, 1000, 150, 1050)
print(result)

4.2 可视化分析

数据可视化能更直观地展示结果差异：

python复制import matplotlib.pyplot as plt

# 点击率对比条形图
labels = ['版本A', '版本B']
values = [result['p_A'], result['p_B']]
errors = [np.sqrt(result['p_A']*(1-result['p_A'])/1000),
          np.sqrt(result['p_B']*(1-result['p_B'])/1050)]

plt.figure(figsize=(8,5))
bars = plt.bar(labels, values, yerr=errors, capsize=10)
plt.ylabel('点击率')
plt.title('广告版本A/B测试结果')
for bar in bars:
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2., height,
             f'{height:.2%}',
             ha='center', va='bottom')
plt.show()

4.3 贝叶斯方法对比

除频率学派的假设检验外，贝叶斯方法也能提供有价值的视角：

python复制from scipy.stats import beta

# 假设先验分布为Beta(1,1)即均匀分布
posterior_A = beta(1 + 120, 1 + 1000 - 120)
posterior_B = beta(1 + 150, 1 + 1050 - 150)

# 计算B优于A的概率
samples = 100000
prob_B_better = (posterior_B.rvs(samples) > posterior_A.rvs(samples)).mean()
print(f"版本B优于版本A的概率: {prob_B_better:.1%}")