1. 因果推断方法体系概述
因果推断作为现代应用微观计量经济学的核心方法论,在过去二十年经历了从简单回归分析到复杂识别策略的范式转变。普林斯顿大学Christine Cai博士整理的《Applied Micro Methods》文献笔记,系统性地梳理了这一领域从基础到前沿的12个核心主题,构建了一套完整的因果推断工具箱。
这套方法体系最显著的特点是其实用导向——每个主题都精选了近十年最具影响力的方法论文献,且大部分都配有可直接调用的Stata或R实现代码。这种"理论方法+实操工具"的组合,极大降低了前沿计量方法的应用门槛。
从技术演进角度看,现代因果推断方法呈现出三个明显趋势:
- 对传统OLS框架的反思与改进(如聚类标准误、高维回归问题)
- 准实验设计方法的精细化发展(DID、RD、IV等)
- 机器学习等新技术的融合应用
这些方法共同构成了当代实证研究者必须掌握的方法论基础。下面我将重点解析其中几个最具实用价值的技术模块。
2. OLS推断的现代视角
2.1 聚类标准误的适用边界
Abadie et al.(2023)在QJE发表的里程碑式研究,彻底改变了我们对聚类标准误的认知。传统教条认为"只要存在组内相关性就该聚类",但他们的理论证明:
- 设计聚类(如整群随机实验)必须调整标准误
- 抽样聚类(如分层抽样)也需要调整
- 残差相关但处理独立时,聚类调整反而有害
实际操作中,我建议采用以下决策流程:
stata复制// 判断是否需要聚类调整的伪代码
if 处理变量在组内完全相关 || 抽样设计是分层的 {
使用聚类标准误
} else if 仅残差存在组内相关 {
考虑异方差稳健标准误
}
2.2 小样本聚类问题的解决方案
当聚类数量少于30个时,传统聚类标准误会产生严重的size distortion。Ibragimov和Müller(2016)提出的t分布方法,其实现步骤异常简洁:
- 在每个聚类内单独估计参数β_j
- 计算跨聚类的均值β̂ = mean(β_j)
- 使用标准t检验进行推断
Stata实现示例:
stata复制// 按州分别回归后合并结果
foreach state in 1 2 3 4 5 {
reg y x if state==`state'
estimates store state_`state'
}
combine_estimates state_*, dof(5) // 自由度为聚类数-1
2.3 高维回归的推断难题
Cattaneo et al.(2018)的研究揭示了一个反直觉现象:当控制变量数量与样本量同比例增长时,所有标准误估计量都会失效。他们的解决方案是在三明治方差估计中加入偏差修正项:
理论方差公式:
Var(β̂) = (X'X)⁻¹X'ΩX⁻¹ + 高维修正项
实际应用中,可以使用作者开发的R包hdm:
r复制library(hdm)
fit <- rlassoEffects(x, y, index=c(1,2)) # 对前两个变量进行推断
summary(fit)
3. 随机对照试验的实践洞见
3.1 随机化推断的必要性
Young(2019)对53篇顶刊实验论文的重新分析表明,传统t检验可能严重低估真实p值。随机化推断的核心思想是:
- 保持结果变量不变
- 随机重分配处理状态数千次
- 构建β估计量的经验分布
Stata实现方法:
stata复制ritest treat _b[treat], reps(5000) seed(123): reg y treat
注意:当处理组数少于10时,必须使用精确排列检验而非近似随机化
3.2 异质性处理效应的诊断
Gibbons et al.(2018)揭示了TWFE估计量在异质性情境下的严重问题。通过以下方法可以诊断权重异常:
stata复制hettreatreg y x, treat(treat) group(state)
输出结果中的Weight列会显示:
- 正权重:合理子群
- 负权重:产生问题的比较组
- 绝对值:影响程度
4. 双重差分法的前沿进展
4.1 交错DID的解决方案
传统TWFE在交错处理时会产生负权重问题。最新解决方案包括:
- 堆叠回归法(Cengiz et al. 2019)
stata复制stackedev y, cohort(first_treat) time(year) covariates(x1 x2)
- 插补估计量(Borusyak et al. 2021)
stata复制did_imputation y unitid year first_treat, covariates(x1 x2)
4.2 处理效应动态分析
事件研究法的规范做法:
stata复制eventstudyinteract y, window(-5 5) cohort(first_treat) control_cohort(never_treated)
关键检验点:
- 预处理期平行趋势(系数不显著)
- 处理效应动态路径(滞后项系数变化)
5. 断点回归的设计要点
5.1 带宽选择的权衡
最优带宽计算原理:
MSE = 偏差² + 方差 → 最小化
实际操作:
stata复制rdbwselect y x, c(0) kernel(triangular)
5.2 局部多项式阶数选择
经验法则:
- 全局回归:2阶多项式
- 局部回归:线性即可
- 检验方法:更高阶项不显著
6. 工具变量法的创新应用
6.1 份额移动IV的稳健标准误
Adão et al.(2019)提出的解决方案:
stata复制ssaggregate y x, shares(s1 s2) controls(z1 z2) robust
6.2 弱工具诊断
必须报告:
- 第一阶段F统计量
- 有效F统计量(Montiel-Olea-Pflueger)
stata复制ivreg2 y (x=z), robust first
7. 机器学习与因果推断
7.1 双重机器学习框架
基本步骤:
- 用ML预测结果变量:y ~ W
- 用ML预测处理变量:d ~ W
- 正交化后回归:ỹ ~ d̃
stata复制dml y d, mlmethod(randomforest) kfold(5)
7.2 变量选择的正则化
LASSO的应用技巧:
stata复制lasso linear y x1-x100, selection(cv)
predict selected, selected
reg y d selected
8. 实证研究质量检查清单
为确保研究可靠性,建议完成以下自查:
-
识别假设的可信性评估
- 排他性约束
- 外生性条件
- 平行趋势检验
-
估计量的敏感性分析
- 带宽/多项式变化
- 不同对照组
- 子样本分析
-
统计推断的稳健性
- 聚类层级选择
- 小样本调整
- 多重检验校正
这套方法体系的价值不仅在于技术本身,更在于培养研究者的"设计思维"——从数据生成过程出发选择恰当方法,而非机械套用模型。在实际研究过程中,我通常会先绘制因果图明确识别策略,再选择对应的估计方法,最后通过各种稳健性检验验证结果的可信度。这种系统化的研究范式,往往能发现传统分析中隐藏的深层问题。