1. 项目背景与数据价值
2007年启动的健康城市试点政策是我国公共卫生领域的重要探索,这份跨越17年的DID(双重差分法)数据集为政策效果评估提供了黄金标准。作为长期关注公共政策量化分析的研究者,我亲历了从手工收集纸质文件到建立结构化数据库的全过程。这套数据最核心的价值在于:通过准自然实验设计,剥离了时间趋势和其他混杂因素的影响,真正捕捉到政策干预的净效应。
数据集包含试点城市与非试点城市在政策实施前后共34个季度的面板数据,覆盖了医疗卫生资源配置、环境质量指标、居民健康水平等7个维度的138个变量。特别值得注意的是,我们通过政务公开平台回溯补充了2007-2010年间的原始监测数据,这部分早期数据以往研究中往往缺失。
2. 数据结构与关键字段解析
2.1 基础识别变量
- city_code:采用GB/T 2260-2007行政区划代码,确保与统计年鉴数据匹配
- year_quarter:时间标记精确到季度(如"2007Q3"),这是考虑到公共卫生政策效果往往存在季节性波动
- treatment:处理组虚拟变量(试点城市=1),需注意部分城市在2012年后才纳入试点
2.2 核心结果变量
-
医疗资源维度:
- per_capita_hospital_beds(人均床位数)
- tertiary_hospitals_per_million(三甲医院密度)
-
环境指标维度:
- pm2.5_annual_avg(细颗粒物年均浓度)
- green_space_per_capita(人均绿地面积)
-
健康结果维度:
- life_expectancy(预期寿命)
- under5_mortality_rate(5岁以下儿童死亡率)
2.3 控制变量组
包含经济发展水平(人均GDP)、人口结构(老龄化率)、财政支出(医疗卫生支出占比)等12个可能影响政策效果的协变量。我们在2015年版本中新增了互联网普及率这个控制变量,因为发现移动医疗的普及会显著调节政策效果。
3. DID模型构建要点
3.1 基准模型设定
使用双向固定效应模型:
code复制Y_it = α + β(Treat_i × Post_t) + γX_it + μ_i + λ_t + ε_it
其中μ_i和λ_t分别代表城市固定效应和时间固定效应。在实际操作中,建议先用xtset city_code year_quarter声明面板结构,再用reghdfe命令估计系数。
3.2 平行趋势检验
这是DID分析的关键前提。我们的数据包已包含两种检验方法:
- 事件研究法:绘制政策前后各期的系数轨迹图
- Placebo Test:虚构政策时点进行反事实检验
重要提示:平行趋势检验必须放在正文结果之前报告,这是审稿人最关注的环节之一。
3.3 动态效应分析
通过引入政策实施后的时间虚拟变量,可以捕捉政策效果的演变规律。数据集中特别设计了years_since_treatment变量,取值-5到+10,方便研究者直接调用。
4. 数据清洗实战经验
4.1 异常值处理
在2009年Q2的空气质量数据中,我们发现部分城市出现PM2.5监测值突降至个位数的异常情况。经核查这是监测设备升级导致的系统误差,应采用前后三个月的移动平均值进行修正。
4.2 缺失值填补
对于医疗资源类变量,推荐使用多重插补法(MI)而非简单均值填补。具体操作:
stata复制mi set wide
mi register imputed per_capita_doctors
mi impute chained (regress) per_capita_doctors = i.city_code c.year, add(5)
4.3 行政区划调整处理
2016年后多个城市发生合并拆分,我们采用以下方法保持连续性:
- 合并城市:各项指标按人口加权汇总
- 拆分城市:按新行政区面积比例分配原数据
5. 进阶分析技巧
5.1 异质性分析
数据集已预设分组变量:
- 按城市规模分组(超大城市/特大/大城市)
- 按地理位置分组(东部/中部/西部)
建议使用三重差分模型(DDD):
code复制Y = α + β1Treat×Post + β2Treat×Post×Group + γX + FE + ε
5.2 机制检验
我们构建了中介效应分析所需的中间变量:
- medical_insurance_coverage(医保覆盖率)
- health_education_expenditure(健康教育支出)
推荐使用Bootstrap法检验中介效应占比。
5.3 空间溢出效应
在Stata中可通过spmat命令构建空间权重矩阵,特别要注意:
- 经济距离矩阵优于地理距离矩阵
- 需要先进行莫兰指数检验
6. 常见问题解决方案
6.1 政策时点模糊
部分城市实际执行时间晚于官方文件时间,我们通过两种方式验证:
- 查阅地方政府工作报告中的具体实施日期
- 检查医疗卫生支出突增的时点
6.2 样本选择偏误
针对非随机试点的问题,建议:
- 使用PSM-DID方法匹配对照组
- 采用熵平衡法(Entropy Balancing)
6.3 多重共线性
在控制变量较多时,务必检查方差膨胀因子(VIF)。我们的测试发现,当同时控制人均GDP和财政收入时,VIF会超过10,此时应保留其中一个即可。
7. 数据可视化建议
7.1 基础图示
- 事件研究图:用95%置信区间展示政策前后效应
- 平行趋势图:叠加处理组和对照组的预处理期趋势
7.2 高级呈现
- 地理热力图:使用ArcGIS展示政策效果的地区差异
- 动态面板图:用
xtline命令绘制关键指标的跨期演变
实际操作中,我发现用coefplot命令绘制系数矩阵最受期刊欢迎,这个Stata包可以一键生成出版级图表:
code复制coefplot, keep(Treat×Post) xline(0) levels(95)
8. 数据更新与维护
这套数据保持每年两次更新(1月/7月),需要注意三个重要节点:
- 2020年:新冠疫情对常规健康指标造成结构性断点,建议加入疫情虚拟变量
- 2021年:新修订的《中国卫生统计年鉴》调整了部分指标口径
- 2023年:开始纳入智慧城市建设的交互项数据
维护过程中最耗时的环节是原始文件的格式转换——早期PDF报告需要经过OCR识别、人工校验、格式标准化三道工序。我们开发了半自动化校验工具,将错误率控制在0.3%以下。