因果推断方法：从SCM到PSM的实证应用-代码聚汇网

因果推断方法：从SCM到PSM的实证应用

事实求是

1. 因果推断方法概述

在实证经济学研究中，因果推断始终是核心挑战。传统回归分析只能揭示变量间的相关性，而现代计量经济学发展出了一系列识别因果关系的工具。这些方法大致可分为三类：实验设计类（如RCT）、准实验设计类（如DID、RD、IV）和结构模型类。每种方法都有其适用场景和前提假设，研究者需要根据数据特征和研究问题选择合适的方法。

注意：任何因果推断方法都依赖于识别假设，在实际应用中必须对这些假设进行充分检验。

2. 合成控制法（SCM）详解

2.1 基本理论与经典应用

合成控制法由Abadie等人在2010年提出，主要用于评估政策对单个或少数处理单元的影响。其核心思想是通过加权组合控制单元，构建一个"合成对照组"，使其在处理前的特征和结果变量轨迹上与处理单元尽可能相似。

具体数学表达为：

code复制Y_it(0) = δ_t + θ_tZ_i + λ_tμ_i + ε_it

其中：

δ_t为时间固定效应
Z_i为可观测协变量
μ_i为不可观测因子
λ_t为因子载荷

SCM通过最小化处理前期的预测误差来选择权重：

code复制min_w ||X_1 - X_0W||
s.t. w_j ≥0, Σw_j=1

2.2 最新方法进展

2.2.1 合成双重差分（SDID）

Arkhangelsky等人(2021)提出的SDID方法在传统SCM基础上增加了时间权重，同时优化：

code复制min_w,λ Σ_t λ_t(Y_1t - Σ_j w_j Y_jt)^2

这种方法兼具SCM和DID的优点，在存在共同时间冲击时表现更好。

2.2.2 增强合成控制

Ben-Michael等人(2021)提出当预处理期拟合不佳时，可以使用结果模型（如岭回归）对SC估计进行偏误修正：

code复制τ̂ = τ̂_SC + (μ̂_1 - Σ_j ŵ_j μ̂_j)

其中μ̂是结果模型的预测值。

2.3 实操建议与常见问题

数据准备：
- 需要面板数据结构
- 处理前至少需要5-10期数据
- 协变量应包括影响结果和处理分配的关键变量

实施步骤：

stata复制synth outcome var1 var2, trunit(1) trperiod(2000) keep(results)

有效性检验：
- 预处理期拟合优度（R^2）
- 协变量平衡性检验
- 安慰剂检验（Placebo Test）
常见问题：
- 处理单元在预处理期表现异常
- 控制池过小导致合成效果差
- 政策效应存在时滞

3. 匹配方法深度解析

3.1 主流匹配方法比较

方法	原理	优点	缺点
最近邻匹配	选择PS最接近的个体	直观易懂	易受异常值影响
半径匹配	在给定半径内匹配	质量可控	可能匹配不足
核匹配	使用所有对照加权	效率高	计算量大
精确匹配	完全匹配关键变量	无外推偏误	可能样本损失大

3.2 倾向得分匹配（PSM）实施

估计倾向得分：

stata复制psmatch2 treatment x1 x2 x3, logit

匹配质量诊断：
- 标准化偏差应<10%
- t检验应不显著
- 倾向得分分布重叠充分

效应估计：

stata复制teffects psmatch (outcome) (treatment x1 x2 x3)

3.3 匹配中的关键问题

变量选择：
- 应包括影响处理和结果的变量
- 不包括仅影响结果的变量（会导致效率损失）
- 不包括处理后的变量（会导致过度控制）
共同支撑条件：
- 检查倾向得分的重叠分布
- 必要时进行样本修剪
敏感性分析：
- 不同匹配方法比较
- 不同协变量组合
- 不同带宽或匹配比例

4. 聚束分析方法与应用

4.1 理论基础与识别策略

聚束分析利用个体在政策阈值处的行为反应来识别结构参数。基本模型设定为：

code复制z_i = z_i^ + e_i

其中z_i^是理想位置，e_i是优化摩擦。

关键识别假设是：

反事实密度在阈值处平滑
个体对激励有充分认知
摩擦分布已知或可估计

4.2 实施步骤

数据准备：
- 需要个体层面的横截面数据
- 确定政策阈值点
- 选择适当带宽

Stata实现：

stata复制bunching income, kink(50000) bin(1000) poly(7)

结果解读：
- 估计堆积质量
- 计算弹性参数
- 进行稳健性检验

4.3 应用注意事项

数据要求：
- 样本量足够大（通常需要数万观测值）
- 测量误差小
- 政策阈值明确
模型设定：
- 适当选择多项式阶数
- 考虑异质性反应
- 处理优化摩擦
局限性：
- 只能识别局部参数
- 对函数形式敏感
- 难以处理多维度选择

5. 充分统计量方法

5.1 基本框架

充分统计量方法的核心公式通常形如：

code复制W = f(η, ε, ...)

其中η是关键弹性参数，ε是其他充分统计量。

典型应用包括：

最优税收：使用应税收入弹性
福利分析：使用消费弹性
政策评估：使用边际替代率

5.2 实施建议

参数选择：
- 基于经济理论确定关键参数
- 使用微观数据估计弹性
- 考虑参数异质性
敏感性分析：
- 参数合理范围
- 不同数据来源比较
- 模型设定变化
优势与局限：
- 优势：避免完全结构估计
- 局限：依赖简化假设
- 适用场景：政策边际变化评估

6. 方法选择与组合应用

6.1 方法比较矩阵

方法	数据要求	识别假设	适用场景
SCM	面板数据	无未观测混杂	单个/少数处理
PSM	横截面	条件独立	可观测混杂
Bunching	横截面	密度连续性	阈值行为反应
充分统计量	弹性估计	结构关系稳定	福利分析

6.2 组合应用策略

PSM+DID：
- 先用PSM构建可比样本
- 再用DID估计处理效应
- 缓解选择偏差和时变混杂
SCM+SDID：
- 当存在共同冲击时
- 提高估计精度
- 增强稳健性
Bunching+充分统计量：
- 用Bunching估计关键弹性
- 代入充分统计量公式
- 进行政策模拟

6.3 研究设计检查清单

明确因果问题
评估识别假设
选择适当方法
进行稳健性检验
报告敏感性分析
讨论局限性

在实际研究中，我经常发现初学者容易陷入方法复杂性的迷思，而忽视了对基础假设的检验。无论采用多么前沿的方法，如果核心识别假设不成立，结果都难以令人信服。因此，建议在研究设计阶段就充分考虑各种检验方案，并在论文中详细报告这些检验结果。