健康城市政策评估：DID模型与数据处理实战指南-代码聚汇网

健康城市政策评估：DID模型与数据处理实战指南

故小里

1. 项目背景与数据价值

2007年启动的健康城市试点政策是我国公共卫生领域的重要探索，这份跨越17年的DID（双重差分法）数据集为政策效果评估提供了黄金标准。作为长期关注公共政策量化分析的研究者，我亲历了从手工收集纸质文件到建立结构化数据库的全过程。这套数据最核心的价值在于：通过准自然实验设计，剥离了时间趋势和其他混杂因素的影响，真正捕捉到政策干预的净效应。

数据集包含试点城市与非试点城市在政策实施前后共34个季度的面板数据，覆盖了医疗卫生资源配置、环境质量指标、居民健康水平等7个维度的138个变量。特别值得注意的是，我们通过政务公开平台回溯补充了2007-2010年间的原始监测数据，这部分早期数据以往研究中往往缺失。

2. 数据结构与关键字段解析

2.1 基础识别变量

city_code：采用GB/T 2260-2007行政区划代码，确保与统计年鉴数据匹配
year_quarter：时间标记精确到季度（如"2007Q3"），这是考虑到公共卫生政策效果往往存在季节性波动
treatment：处理组虚拟变量（试点城市=1），需注意部分城市在2012年后才纳入试点

2.2 核心结果变量

医疗资源维度：
- per_capita_hospital_beds（人均床位数）
- tertiary_hospitals_per_million（三甲医院密度）
环境指标维度：
- pm2.5_annual_avg（细颗粒物年均浓度）
- green_space_per_capita（人均绿地面积）
健康结果维度：
- life_expectancy（预期寿命）
- under5_mortality_rate（5岁以下儿童死亡率）

2.3 控制变量组

包含经济发展水平（人均GDP）、人口结构（老龄化率）、财政支出（医疗卫生支出占比）等12个可能影响政策效果的协变量。我们在2015年版本中新增了互联网普及率这个控制变量，因为发现移动医疗的普及会显著调节政策效果。

3. DID模型构建要点

3.1 基准模型设定

使用双向固定效应模型：

code复制Y_it = α + β(Treat_i × Post_t) + γX_it + μ_i + λ_t + ε_it

其中μ_i和λ_t分别代表城市固定效应和时间固定效应。在实际操作中，建议先用xtset city_code year_quarter声明面板结构，再用reghdfe命令估计系数。

3.2 平行趋势检验

这是DID分析的关键前提。我们的数据包已包含两种检验方法：

事件研究法：绘制政策前后各期的系数轨迹图
Placebo Test：虚构政策时点进行反事实检验

重要提示：平行趋势检验必须放在正文结果之前报告，这是审稿人最关注的环节之一。

3.3 动态效应分析

通过引入政策实施后的时间虚拟变量，可以捕捉政策效果的演变规律。数据集中特别设计了years_since_treatment变量，取值-5到+10，方便研究者直接调用。

4. 数据清洗实战经验

4.1 异常值处理

在2009年Q2的空气质量数据中，我们发现部分城市出现PM2.5监测值突降至个位数的异常情况。经核查这是监测设备升级导致的系统误差，应采用前后三个月的移动平均值进行修正。

4.2 缺失值填补

对于医疗资源类变量，推荐使用多重插补法（MI）而非简单均值填补。具体操作：

stata复制mi set wide
mi register imputed per_capita_doctors
mi impute chained (regress) per_capita_doctors = i.city_code c.year, add(5)

4.3 行政区划调整处理

2016年后多个城市发生合并拆分，我们采用以下方法保持连续性：

合并城市：各项指标按人口加权汇总
拆分城市：按新行政区面积比例分配原数据

5. 进阶分析技巧

5.1 异质性分析

数据集已预设分组变量：

按城市规模分组（超大城市/特大/大城市）
按地理位置分组（东部/中部/西部）
建议使用三重差分模型（DDD）：

code复制Y = α + β1Treat×Post + β2Treat×Post×Group + γX + FE + ε

5.2 机制检验

我们构建了中介效应分析所需的中间变量：

medical_insurance_coverage（医保覆盖率）
health_education_expenditure（健康教育支出）
推荐使用Bootstrap法检验中介效应占比。

5.3 空间溢出效应

在Stata中可通过spmat命令构建空间权重矩阵，特别要注意：

经济距离矩阵优于地理距离矩阵
需要先进行莫兰指数检验

6. 常见问题解决方案

6.1 政策时点模糊

部分城市实际执行时间晚于官方文件时间，我们通过两种方式验证：

查阅地方政府工作报告中的具体实施日期
检查医疗卫生支出突增的时点

6.2 样本选择偏误

针对非随机试点的问题，建议：

使用PSM-DID方法匹配对照组
采用熵平衡法（Entropy Balancing）

6.3 多重共线性

在控制变量较多时，务必检查方差膨胀因子（VIF）。我们的测试发现，当同时控制人均GDP和财政收入时，VIF会超过10，此时应保留其中一个即可。

7. 数据可视化建议

7.1 基础图示

事件研究图：用95%置信区间展示政策前后效应
平行趋势图：叠加处理组和对照组的预处理期趋势

7.2 高级呈现

地理热力图：使用ArcGIS展示政策效果的地区差异
动态面板图：用xtline命令绘制关键指标的跨期演变

实际操作中，我发现用coefplot命令绘制系数矩阵最受期刊欢迎，这个Stata包可以一键生成出版级图表：

code复制coefplot, keep(Treat×Post) xline(0) levels(95)

8. 数据更新与维护

这套数据保持每年两次更新（1月/7月），需要注意三个重要节点：

2020年：新冠疫情对常规健康指标造成结构性断点，建议加入疫情虚拟变量
2021年：新修订的《中国卫生统计年鉴》调整了部分指标口径
2023年：开始纳入智慧城市建设的交互项数据

维护过程中最耗时的环节是原始文件的格式转换——早期PDF报告需要经过OCR识别、人工校验、格式标准化三道工序。我们开发了半自动化校验工具，将错误率控制在0.3%以下。