用Python的scipy.stats对比两组数据差异？从癫痫EEG数据实战到你的AB测试，一份避坑指南

撸铁活力蓝

Python统计实战：从EEG分析到AB测试的差异检验指南

当我们需要判断两组数据是否存在显著差异时，独立样本T检验是最常用的统计方法之一。但很多数据分析师只停留在函数调用层面，忽略了背后的统计假设和适用场景。本文将带你深入理解scipy.stats.ttest_ind的应用精髓，通过神经科学和互联网产品两个截然不同的案例，掌握差异检验的全流程方法论。

1. 理解独立样本T检验的核心假设

独立样本T检验（Independent Samples t-test）用于比较两组独立数据的均值差异。但在调用stats.ttest_ind之前，必须验证三个关键前提条件：

独立性：两组数据必须来自完全独立的样本
正态性：数据应近似服从正态分布（在样本量较大时可放宽）
方差齐性：两组数据的方差应大致相等

其中方差齐性常被忽视，却直接影响检验结果的准确性。我们可以用Levene检验来验证这一假设：

python复制from scipy import stats

# 生成模拟数据
group_A = stats.norm.rvs(loc=50, scale=10, size=100)
group_B = stats.norm.rvs(loc=55, scale=12, size=120)

# 方差齐性检验
levene_result = stats.levene(group_A, group_B)
print(f"Levene检验p值: {levene_result.pvalue:.4f}")

if levene_result.pvalue > 0.05:
    ttest_result = stats.ttest_ind(group_A, group_B, equal_var=True)
else:
    ttest_result = stats.ttest_ind(group_A, group_B, equal_var=False)

注意：当样本量差异较大时（如一组100个样本，另一组30个），建议使用Welch's t-test（equal_var=False），它对方差齐性的要求更宽松。

2. 神经科学应用：癫痫EEG信号分析

在癫痫研究中，EEG信号分析是重要的诊断手段。假设我们有一组癫痫患者和健康对照组的脑电数据，需要比较特定脑区活动的差异。

2.1 数据准备与探索

典型的EEG数据是多通道时间序列，我们需要先进行预处理：

python复制import numpy as np
import matplotlib.pyplot as plt

# 加载数据
eeg_epilepsy = np.load('eeg_epilepsy.npy')  # 癫痫组数据 (n_samples, n_channels, n_timepoints)
eeg_control = np.load('eeg_control.npy')    # 对照组数据

# 提取特定频段功率（例如alpha波：8-12Hz）
def extract_alpha_power(eeg_data):
    # 实际应用中这里会有傅里叶变换等处理
    return np.mean(eeg_data[:, :, 100:200], axis=2)  # 简化示例

alpha_epilepsy = extract_alpha_power(eeg_epilepsy)
alpha_control = extract_alpha_power(eeg_control)

2.2 通道级差异检验

EEG通常有多个通道（电极位置），我们需要对每个通道分别检验：

python复制# 初始化结果存储
p_values = np.zeros(alpha_epilepsy.shape[1])
significant_channels = []

for ch in range(alpha_epilepsy.shape[1]):
    # 检查方差齐性
    levene = stats.levene(alpha_epilepsy[:, ch], alpha_control[:, ch])
    
    # 执行T检验
    if levene.pvalue > 0.05:
        ttest = stats.ttest_ind(alpha_epilepsy[:, ch], alpha_control[:, ch], equal_var=True)
    else:
        ttest = stats.ttest_ind(alpha_epilepsy[:, ch], alpha_control[:, ch], equal_var=False)
    
    p_values[ch] = ttest.pvalue
    if ttest.pvalue < 0.05:
        significant_channels.append(ch)

print(f"显著差异通道: {significant_channels}")

2.3 多重检验校正

当同时检验多个通道时，需要进行多重比较校正（如Bonferroni校正）：

python复制from statsmodels.stats.multitest import multipletests

# Bonferroni校正
rejected, corrected_p, _, _ = multipletests(p_values, alpha=0.05, method='bonferroni')
significant_after_correction = np.where(rejected)[0]

print(f"校正后显著通道: {significant_after_correction.tolist()}")

3. 互联网产品应用：AB测试分析

AB测试是互联网产品优化的核心方法。假设我们测试了两个不同登录页面的转化率：

3.1 数据准备与清洗

典型的AB测试数据可能如下：

用户ID	实验组	是否转化	停留时间
001	A	1	45
002	B	0	32
...	...	...	...

python复制import pandas as pd

# 模拟AB测试数据
np.random.seed(42)
data = pd.DataFrame({
    'group': np.random.choice(['A', 'B'], size=1000),
    'converted': 0
})

# 设置不同转化率
data.loc[data['group'] == 'A', 'converted'] = np.random.binomial(1, 0.12, size=(data['group'] == 'A').sum())
data.loc[data['group'] == 'B', 'converted'] = np.random.binomial(1, 0.15, size=(data['group'] == 'B').sum())

# 分组统计
group_A = data[data['group'] == 'A']['converted']
group_B = data[data['group'] == 'B']['converted']

3.2 比例差异检验

对于转化率这类比例数据，虽然可以使用T检验，但更推荐使用比例检验（z-test）：

python复制from statsmodels.stats.proportion import proportions_ztest

count = [group_A.sum(), group_B.sum()]
nobs = [len(group_A), len(group_B)]
zstat, pval = proportions_ztest(count, nobs)
print(f"比例检验p值: {pval:.4f}")

3.3 连续指标的检验

对于停留时间等连续指标，则适用独立样本T检验：

python复制# 添加停留时间数据
data['time_spent'] = np.where(data['group'] == 'A', 
                             np.random.normal(45, 10, size=len(data)),
                             np.random.normal(50, 12, size=len(data)))

time_A = data[data['group'] == 'A']['time_spent']
time_B = data[data['group'] == 'B']['time_spent']

# 方差齐性检验
levene = stats.levene(time_A, time_B)

# 执行T检验
if levene.pvalue > 0.05:
    ttest = stats.ttest_ind(time_A, time_B, equal_var=True)
else:
    ttest = stats.ttest_ind(time_A, time_B, equal_var=False)

print(f"停留时间差异检验p值: {ttest.pvalue:.4f}")

4. 常见陷阱与解决方案

4.1 样本量不平衡问题

当两组样本量差异很大时，即使方差齐性检验通过，也可能影响结果可靠性。解决方案：

使用Welch's t-test（默认equal_var=False）
考虑分层抽样或过采样技术

python复制# 处理不平衡样本的推荐方法
def balanced_ttest(group1, group2):
    # 检查样本量差异
    ratio = len(group1) / len(group2)
    
    if ratio < 0.5 or ratio > 2:
        print("警告：样本量差异较大，建议使用Welch's t-test")
        return stats.ttest_ind(group1, group2, equal_var=False)
    else:
        levene = stats.levene(group1, group2)
        return stats.ttest_ind(group1, group2, equal_var=levene.pvalue > 0.05)

4.2 非正态数据应对策略

当数据明显偏离正态分布时：

样本量较大（每组>30）：依靠中心极限定理，T检验仍可靠
样本量小：考虑非参数检验（如Mann-Whitney U检验）

python复制# 正态性检验
def check_normality(data, alpha=0.05):
    stat, p = stats.shapiro(data)
    return p > alpha

if not check_normality(group_A) or not check_normality(group_B):
    print("数据非正态，考虑使用Mann-Whitney U检验")
    u_stat, p_val = stats.mannwhitneyu(group_A, group_B)
    print(f"Mann-Whitney U检验p值: {p_val:.4f}")

4.3 效应量计算

统计显著不等于实际意义显著，应同时报告效应量：

效应量指标	计算方法	解释
Cohen's d	(mean1 - mean2)/pooled_sd	0.2小，0.5中，0.8大
均值差异	mean1 - mean2	原始单位解释
相对提升率	(mean2 - mean1)/mean1 * 100%	百分比形式直观易懂

python复制def cohens_d(group1, group2):
    diff = np.mean(group1) - np.mean(group2)
    n1, n2 = len(group1), len(group2)
    var1, var2 = np.var(group1, ddof=1), np.var(group2, ddof=1)
    pooled_sd = np.sqrt(((n1-1)*var1 + (n2-1)*var2) / (n1 + n2 - 2))
    return diff / pooled_sd

d = cohens_d(time_A, time_B)
print(f"Cohen's d效应量: {d:.2f}")

5. 自动化检验流程实现

为提高分析效率，我们可以封装一个完整的差异检验流程：

python复制def auto_ttest_analysis(group1, group2, alpha=0.05, name1='Group1', name2='Group2'):
    """自动化差异检验流程
    
    参数:
        group1: 第一组数据
        group2: 第二组数据
        alpha: 显著性水平
        name1: 第一组名称
        name2: 第二组名称
        
    返回:
        dict: 包含所有检验结果和决策的字典
    """
    results = {
        'group_names': (name1, name2),
        'sample_sizes': (len(group1), len(group2)),
        'means': (np.mean(group1), np.mean(group2)),
        'stds': (np.std(group1, ddof=1), np.std(group2, ddof=1))
    }
    
    # 正态性检验
    norm1 = stats.shapiro(group1)
    norm2 = stats.shapiro(group2)
    results['normality'] = {
        name1: {'statistic': norm1[0], 'pvalue': norm1[1]},
        name2: {'statistic': norm2[0], 'pvalue': norm2[1]}
    }
    
    # 方差齐性检验
    levene = stats.levene(group1, group2)
    results['homoscedasticity'] = {
        'statistic': levene.statistic,
        'pvalue': levene.pvalue
    }
    
    # 选择适当的检验方法
    if norm1[1] > alpha and norm2[1] > alpha:
        # 数据正态，使用T检验
        equal_var = levene.pvalue > alpha
        ttest = stats.ttest_ind(group1, group2, equal_var=equal_var)
        results['test_type'] = 'Independent t-test'
        results['test_params'] = {'equal_var': equal_var}
        results['test_results'] = {
            'statistic': ttest.statistic,
            'pvalue': ttest.pvalue
        }
    else:
        # 数据非正态，使用Mann-Whitney U检验
        u_test = stats.mannwhitneyu(group1, group2)
        results['test_type'] = 'Mann-Whitney U test'
        results['test_results'] = {
            'statistic': u_test.statistic,
            'pvalue': u_test.pvalue
        }
    
    # 计算效应量
    if 'test_type' in results and 't-test' in results['test_type']:
        results['effect_size'] = {
            'cohens_d': cohens_d(group1, group2)
        }
    else:
        # 对于非参数检验，计算中位数差异
        results['effect_size'] = {
            'median_diff': np.median(group1) - np.median(group2)
        }
    
    # 决策
    results['significant'] = results['test_results']['pvalue'] < alpha
    
    return results

这个自动化流程可以处理大多数差异检验场景，输出全面的分析报告。在实际项目中，我发现这种结构化的检验流程能显著减少人为错误，特别是当需要同时分析多个指标时。

已经到底了哦