从‘吃药是否管用’到‘广告点击分析’：一文搞懂卡方检验的底层逻辑与Python实现（附代码）

穆晶波

从‘吃药是否管用’到‘广告点击分析’：一文搞懂卡方检验的底层逻辑与Python实现

卡方检验是统计学中用于分析分类变量之间关系的重要工具。无论是医学研究中的药物效果评估，还是市场营销中的广告点击率分析，卡方检验都能帮助我们判断观察到的差异是否具有统计学意义。本文将带你深入理解卡方检验的数学原理，并通过Python代码实现从零开始的计算过程。

1. 卡方检验的基本概念

卡方检验（Chi-Square Test）是一种用于检验分类变量之间独立性的统计方法。它的核心思想是比较观察到的频数与理论期望频数之间的差异。这种差异越大，说明变量之间的关系越强。

想象你是一家电商平台的数据分析师，想要了解不同性别用户对两种促销活动的响应是否有显著差异。你收集了以下数据：

性别	活动A响应	活动B响应	总计
男性	120	80	200
女性	90	110	200
总计	210	190	400

卡方检验可以帮助你判断性别与活动偏好之间是否存在统计学上的关联。

1.1 理论频数的计算

理论频数是在变量独立的假设下，我们期望观察到的频数。计算公式为：

code复制理论频数 = (行总计 × 列总计) / 总计

对于上表中的男性对活动A响应的理论频数：

code复制(200 × 210) / 400 = 105

1.2 卡方统计量

卡方统计量衡量观察频数与理论频数之间的差异：

code复制χ² = Σ[(观察频数 - 理论频数)² / 理论频数]

这个值越大，说明观察数据与独立假设的偏离越大。

2. Python实现卡方检验

现在让我们用Python从头实现卡方检验的计算过程。我们将使用numpy和pandas库来处理数据。

2.1 准备数据

首先，我们创建一个包含观察频数的数据框：

python复制import pandas as pd
import numpy as np

observed = pd.DataFrame({
    '活动A': [120, 90],
    '活动B': [80, 110]
}, index=['男性', '女性'])

2.2 计算理论频数

python复制row_totals = observed.sum(axis=1)
col_totals = observed.sum(axis=0)
total = observed.sum().sum()

expected = np.outer(row_totals, col_totals) / total
expected = pd.DataFrame(expected, 
                       columns=observed.columns, 
                       index=observed.index)

2.3 计算卡方统计量

python复制chi_squared = ((observed - expected)**2 / expected).sum().sum()
print(f"卡方统计量: {chi_squared:.4f}")

2.4 计算p值

python复制from scipy.stats import chi2

dof = (len(row_totals)-1) * (len(col_totals)-1)
p_value = 1 - chi2.cdf(chi_squared, dof)
print(f"p值: {p_value:.4f}")

3. 使用scipy进行验证

为了验证我们的手动计算结果，我们可以使用scipy提供的现成函数：

python复制from scipy.stats import chi2_contingency

chi2_stat, p_val, dof, expected = chi2_contingency(observed)
print(f"scipy计算的卡方统计量: {chi2_stat:.4f}")
print(f"scipy计算的p值: {p_val:.4f}")

4. 结果解释与应用

在我们的例子中，计算得到的卡方统计量约为8.08，p值约为0.0045。这意味着：

如果显著性水平设为0.05，我们拒绝原假设（性别与活动偏好独立）
结论：性别确实影响了对促销活动的选择

在实际业务中，这种分析可以帮助我们：

针对不同性别用户设计差异化的营销策略
优化广告投放，提高转化率
评估A/B测试结果，判断不同用户群体的反应差异

5. 卡方检验的注意事项

虽然卡方检验功能强大，但在使用时需要注意以下几点：

样本量要求：每个单元格的理论频数应不小于5。如果样本量太小，可以考虑使用Fisher精确检验。
分类变量的性质：卡方检验适用于名义变量（无顺序的分类变量）。对于有序分类变量，可能需要使用其他检验方法。
多重比较问题：当进行多次卡方检验时，需要考虑多重比较带来的假阳性风险，可能需要调整显著性水平。
效应量评估：除了统计显著性，还应关注实际差异的大小。常用的效应量指标包括：
- Cramer's V
- Phi系数
- 列联系数

6. 进阶应用：卡方检验在A/B测试中的使用

在互联网产品分析中，卡方检验常用于A/B测试结果的评估。例如，比较两个不同版本的网页设计对转化率的影响：

版本	转化	未转化	总计
A版	120	880	1000
B版	150	850	1000

通过卡方检验，我们可以判断两个版本的转化率差异是否具有统计学意义，从而决定是否全面推广新版本。

python复制ab_test_data = pd.DataFrame({
    '转化': [120, 150],
    '未转化': [880, 850]
}, index=['A版', 'B版'])

chi2, p, dof, expected = chi2_contingency(ab_test_data)
print(f"A/B测试卡方检验结果 - p值: {p:.4f}")

7. 卡方检验的局限性

尽管卡方检验应用广泛，但它也有一定的局限性：

只能检测变量之间是否存在关联，不能说明关联的方向或强度
对样本量敏感，大样本时即使微小差异也可能显著
不能用于预测或建立因果关系模型
当表格维度较大时（如超过2×2），解释结果可能变得复杂

在实际应用中，通常需要结合其他分析方法和业务知识来全面理解数据。

已经到底了哦

精选内容

1 COCO关键点评估指标OKS详解：你的模型AP值低，可能不是模型的问题 2 Qlib评估模块实战：从仓位到模型的深度解析 | Qlib从入门到精通 #5 3 服务器运维必看：AMD EPYC处理器里的APML/SBI接口，到底怎么用？4 VSCode摸鱼插件终极指南：从LeetCode刷题到命令行看小说，一个编辑器全搞定 5 双目立体视觉实战解析：从三角测量到极线校正的深度重建 6 Ubuntu20.04部署MySQL与Workbench：从零搭建本地开发数据库环境 7 别再手动对比代码了！用Python difflib库5分钟搞定文本差异高亮（附完整代码）8 编码器选型实战指南：从增量式到绝对式的场景化决策 9 PCIe组播（Multicast）配置避坑指南：从MC_Enable到MC_Overlay_BAR的完整流程与常见错误 10 UE4 碰撞（Collision）实战：从基础配置到高级事件响应