1. 因果推断方法概述
在实证经济学研究中,因果推断始终是核心挑战。传统回归分析只能揭示变量间的相关性,而现代计量经济学发展出了一系列识别因果关系的工具。这些方法大致可分为三类:实验设计类(如RCT)、准实验设计类(如DID、RD、IV)和结构模型类。每种方法都有其适用场景和前提假设,研究者需要根据数据特征和研究问题选择合适的方法。
注意:任何因果推断方法都依赖于识别假设,在实际应用中必须对这些假设进行充分检验。
2. 合成控制法(SCM)详解
2.1 基本理论与经典应用
合成控制法由Abadie等人在2010年提出,主要用于评估政策对单个或少数处理单元的影响。其核心思想是通过加权组合控制单元,构建一个"合成对照组",使其在处理前的特征和结果变量轨迹上与处理单元尽可能相似。
具体数学表达为:
code复制Y_it(0) = δ_t + θ_tZ_i + λ_tμ_i + ε_it
其中:
- δ_t为时间固定效应
- Z_i为可观测协变量
- μ_i为不可观测因子
- λ_t为因子载荷
SCM通过最小化处理前期的预测误差来选择权重:
code复制min_w ||X_1 - X_0W||
s.t. w_j ≥0, Σw_j=1
2.2 最新方法进展
2.2.1 合成双重差分(SDID)
Arkhangelsky等人(2021)提出的SDID方法在传统SCM基础上增加了时间权重,同时优化:
code复制min_w,λ Σ_t λ_t(Y_1t - Σ_j w_j Y_jt)^2
这种方法兼具SCM和DID的优点,在存在共同时间冲击时表现更好。
2.2.2 增强合成控制
Ben-Michael等人(2021)提出当预处理期拟合不佳时,可以使用结果模型(如岭回归)对SC估计进行偏误修正:
code复制τ̂ = τ̂_SC + (μ̂_1 - Σ_j ŵ_j μ̂_j)
其中μ̂是结果模型的预测值。
2.3 实操建议与常见问题
-
数据准备:
- 需要面板数据结构
- 处理前至少需要5-10期数据
- 协变量应包括影响结果和处理分配的关键变量
-
实施步骤:
stata复制synth outcome var1 var2, trunit(1) trperiod(2000) keep(results) -
有效性检验:
- 预处理期拟合优度(R^2)
- 协变量平衡性检验
- 安慰剂检验(Placebo Test)
-
常见问题:
- 处理单元在预处理期表现异常
- 控制池过小导致合成效果差
- 政策效应存在时滞
3. 匹配方法深度解析
3.1 主流匹配方法比较
| 方法 | 原理 | 优点 | 缺点 |
|---|---|---|---|
| 最近邻匹配 | 选择PS最接近的个体 | 直观易懂 | 易受异常值影响 |
| 半径匹配 | 在给定半径内匹配 | 质量可控 | 可能匹配不足 |
| 核匹配 | 使用所有对照加权 | 效率高 | 计算量大 |
| 精确匹配 | 完全匹配关键变量 | 无外推偏误 | 可能样本损失大 |
3.2 倾向得分匹配(PSM)实施
-
估计倾向得分:
stata复制psmatch2 treatment x1 x2 x3, logit -
匹配质量诊断:
- 标准化偏差应<10%
- t检验应不显著
- 倾向得分分布重叠充分
-
效应估计:
stata复制
teffects psmatch (outcome) (treatment x1 x2 x3)
3.3 匹配中的关键问题
-
变量选择:
- 应包括影响处理和结果的变量
- 不包括仅影响结果的变量(会导致效率损失)
- 不包括处理后的变量(会导致过度控制)
-
共同支撑条件:
- 检查倾向得分的重叠分布
- 必要时进行样本修剪
-
敏感性分析:
- 不同匹配方法比较
- 不同协变量组合
- 不同带宽或匹配比例
4. 聚束分析方法与应用
4.1 理论基础与识别策略
聚束分析利用个体在政策阈值处的行为反应来识别结构参数。基本模型设定为:
code复制z_i = z_i^ + e_i
其中z_i^是理想位置,e_i是优化摩擦。
关键识别假设是:
- 反事实密度在阈值处平滑
- 个体对激励有充分认知
- 摩擦分布已知或可估计
4.2 实施步骤
-
数据准备:
- 需要个体层面的横截面数据
- 确定政策阈值点
- 选择适当带宽
-
Stata实现:
stata复制
bunching income, kink(50000) bin(1000) poly(7) -
结果解读:
- 估计堆积质量
- 计算弹性参数
- 进行稳健性检验
4.3 应用注意事项
-
数据要求:
- 样本量足够大(通常需要数万观测值)
- 测量误差小
- 政策阈值明确
-
模型设定:
- 适当选择多项式阶数
- 考虑异质性反应
- 处理优化摩擦
-
局限性:
- 只能识别局部参数
- 对函数形式敏感
- 难以处理多维度选择
5. 充分统计量方法
5.1 基本框架
充分统计量方法的核心公式通常形如:
code复制W = f(η, ε, ...)
其中η是关键弹性参数,ε是其他充分统计量。
典型应用包括:
- 最优税收:使用应税收入弹性
- 福利分析:使用消费弹性
- 政策评估:使用边际替代率
5.2 实施建议
-
参数选择:
- 基于经济理论确定关键参数
- 使用微观数据估计弹性
- 考虑参数异质性
-
敏感性分析:
- 参数合理范围
- 不同数据来源比较
- 模型设定变化
-
优势与局限:
- 优势:避免完全结构估计
- 局限:依赖简化假设
- 适用场景:政策边际变化评估
6. 方法选择与组合应用
6.1 方法比较矩阵
| 方法 | 数据要求 | 识别假设 | 适用场景 |
|---|---|---|---|
| SCM | 面板数据 | 无未观测混杂 | 单个/少数处理 |
| PSM | 横截面 | 条件独立 | 可观测混杂 |
| Bunching | 横截面 | 密度连续性 | 阈值行为反应 |
| 充分统计量 | 弹性估计 | 结构关系稳定 | 福利分析 |
6.2 组合应用策略
-
PSM+DID:
- 先用PSM构建可比样本
- 再用DID估计处理效应
- 缓解选择偏差和时变混杂
-
SCM+SDID:
- 当存在共同冲击时
- 提高估计精度
- 增强稳健性
-
Bunching+充分统计量:
- 用Bunching估计关键弹性
- 代入充分统计量公式
- 进行政策模拟
6.3 研究设计检查清单
- 明确因果问题
- 评估识别假设
- 选择适当方法
- 进行稳健性检验
- 报告敏感性分析
- 讨论局限性
在实际研究中,我经常发现初学者容易陷入方法复杂性的迷思,而忽视了对基础假设的检验。无论采用多么前沿的方法,如果核心识别假设不成立,结果都难以令人信服。因此,建议在研究设计阶段就充分考虑各种检验方案,并在论文中详细报告这些检验结果。