倾向得分加权(PSW)在因果推断中的优势与实践-代码聚汇网

倾向得分加权(PSW)在因果推断中的优势与实践

南瓜丶奇迹师

1. 为什么倾向得分加权比匹配更值得推荐

在观察性研究中，我们常常需要处理非随机化实验带来的选择偏差问题。传统上，倾向得分匹配（PSM）是最常用的方法，但越来越多的研究者开始转向倾向得分加权（PSW）。这两种方法都基于倾向得分——即给定协变量条件下个体接受处理的概率，但实现方式和效果存在显著差异。

我从事因果推断研究多年，处理过数十个真实世界数据集。最初我也习惯性使用PSM，直到在一次药物疗效评估项目中，匹配后的样本量从原始20000例骤减到3000例，导致统计功效严重不足。这次教训让我开始系统研究PSW的优势，并在此分享我的实践经验。

2. 核心方法对比与选择逻辑

2.1 倾向得分匹配的固有缺陷

PSM通过为处理组寻找协变量平衡的对照组个体，构建一个"伪实验"环境。常见操作包括：

最近邻匹配（有/无放回）
卡钳匹配（caliper matching）
分层匹配

但存在三个根本问题：

样本浪费严重：通常只能保留50%-70%的处理组样本，对照组未匹配样本直接丢弃
方差估计复杂：匹配后的样本不再独立，需要bootstrap等方法计算标准误
平衡性检验主观：对协变量平衡的判断缺乏统一标准

提示：当处理组占比<10%或>90%时，PSM可能完全无法找到足够匹配对象

2.2 倾向得分加权的技术优势

PSW通过为每个样本赋予权重，使加权后的样本分布满足协变量平衡。主流权重包括：

逆概率权重（IPTW）：处理组权重=1/PS，对照组权重=1/(1-PS)
重叠权重（Overlap Weights）：权重=PS(1-PS)
标准化死亡率权重（SMR）

相比PSM的核心优势：

保留全部样本：不丢弃任何数据点
显式控制极端权重：可通过截断或模型调整处理
方差计算直接：加权后的样本可视为独立观测

r复制# 典型的PSW实现代码（R语言）
ps_model <- glm(treatment ~ age + gender + disease_score, 
                data = df, family = binomial)
df$ps <- predict(ps_model, type = "response")
df$iptw <- ifelse(df$treatment == 1, 1/df$ps, 1/(1-df$ps))

3. 实操流程与关键细节

3.1 倾向得分模型构建要点

协变量选择原则：
- 必须包含所有同时影响处理和结果的变量
- 避免纳入仅影响结果的变量（会增大方差）
- 建议使用有向无环图（DAG）指导选择
模型拟合技巧：
- 连续变量建议使用样条函数（如ns()）
- 交互项需谨慎，可能引发共线性
- 正则化方法（lasso等）可用于高维数据
诊断指标：
- 标准化均值差（SMD）<0.1
- 倾向得分分布重叠可视化
- 权重分布检查（如有效样本量）

3.2 权重计算与调整方法

基础权重公式对比：

权重类型处理组权重对照组权重适用场景

IPTW 1/PS 1/(1-PS) 平均处理效应

SMR 1 PS/(1-PS) 处理组平均效应

Overlap 1-PS PS 重叠区域效应
极端权重处理：
- 截断法：将权重限制在[1%, 99%]分位数
- 模型调整：使用协变量平衡倾向得分（CBPS）
- 双重稳健估计：结合结果回归模型
平衡性检验：
- 加权后的SMD检验
- 加权QQ图可视化
- Kolmogorov-Smirnov检验

权重类型	处理组权重	对照组权重	适用场景
IPTW	1/PS	1/(1-PS)	平均处理效应
SMR	1	PS/(1-PS)	处理组平均效应
Overlap	1-PS	PS	重叠区域效应

4. 常见问题与解决方案

4.1 实践中的典型挑战

极端倾向得分问题
- 现象：某些PS接近0或1导致巨大权重
- 解决方案：
  - 检查重叠假设是否成立
  - 改用重叠权重或截断处理
  - 考虑限制研究人群范围
模型误设风险
- 现象：PS模型遗漏重要变量
- 诊断：
  - 比较加权前后的协变量平衡
  - 检查结果模型的残差模式
- 补救：
  - 添加高阶项或交互项
  - 使用机器学习方法（如GBM、BART）
标准误低估
- 现象：未考虑权重的不确定性
- 处理方法：
  - 稳健标准误（sandwich estimator）
  - 自助法（bootstrap）
  - 基于倾向得分的调整

4.2 效果评估与敏感性分析

效应量解释：
- 不同权重估计不同参数（ATE/ATT/ATO）
- 需明确报告目标估计量
敏感性分析框架：
- 未测量混杂的影响评估
- E-value计算
- 基于先验的偏差分析
- 模型设定检验
- 不同PS模型比较
- 非参数方法验证
与其他方法的结合：
- 双重稳健估计
- 匹配后加权
- 分层加权

5. 案例演示：医疗效果评估

以STAR*D抗抑郁研究数据为例，比较两种SSRI药物的疗效差异。原始样本量4000，其中Escitalopram组仅300人。

5.1 PSM实现结果

最近邻1:3匹配后保留280处理组/840对照组
SMD从0.21降至0.08
效应估计：-1.2（95%CI: -2.1, -0.3）

5.2 PSW实现结果

使用重叠权重保留全部样本
SMD降至0.05
效应估计：-0.9（95%CI: -1.5, -0.3）
标准误缩小约40%

5.3 关键发现

PSW在保持平衡性同时提高精度
极端权重占比<2%（无需截断）
机器学习PS模型优于逻辑回归

6. 决策指南与工具推荐

6.1 方法选择流程图

mermaid复制graph TD
    A[开始] --> B{样本量>5000?}
    B -->|是| C[PSW优先]
    B -->|否| D{处理组比例10%-90%?}
    D -->|是| E[PSM或PSW]
    D -->|否| F[必须使用PSW]

6.2 实用R包推荐

包名	核心功能	优点
WeightIt	多种权重计算	统一接口，支持机器学习
cobalt	平衡性检验	丰富可视化方案
PSweight	专用加权分析	内置效应量估计
MatchThem	多重插补后加权	处理缺失数据

6.3 报告清单

明确说明目标参数（ATE/ATT等）
报告PS模型构建细节
展示加权前后平衡性指标
提供权重分布统计量
包含敏感性分析结果

在实际分析中，我通常会先尝试重叠权重法，因其对极端值不敏感且数学性质优良。当处理组占比极低时，SMR权重可能更合适。重要的是根据诊断结果迭代调整，而非机械套用某种方法。