1. 数据背景与研究价值
数字人才作为数字经济时代的核心生产要素,其空间分布与流动特征直接关系到区域创新能力和产业转型升级。这套覆盖全国297个地级市、时间跨度达21年(2003-2024)的面板数据集,为研究者提供了观察中国数字化进程的微观视角。
在实证研究中,信息传输、计算机服务和软件业从业人员数被广泛用作数字人才的代理变量,主要原因有三:
- 行业覆盖精准:该行业分类(GB/T 4754-2017标准)直接对应数字经济核心产业,包含互联网、软件开发、信息系统集成等细分领域
- 数据可得性强:相比企业层面数据,城市统计年鉴的从业人员数具有更好的连续性和可比性
- 政策参考价值高:地方政府在制定数字经济发展规划时,普遍采用该指标评估本地数字人才储备
提示:使用线性插值法处理缺失值时,建议优先考虑相邻年份均值法。当连续多年数据缺失时,可结合城市GDP增速、互联网普及率等协变量进行回归填补。
2. 数据结构解析
2.1 核心指标说明
数据集包含三个层级的指标维度:
-
基础维度(必选字段):
- 时间标识:年份(2003-2024)
- 空间标识:省份代码(6位国标码)、城市代码(9位国标码)
- 地理分区:东部/中部/西部/东北四大经济带
-
核心指标:
markdown复制
| 原始指标 | 处理方式 | 适用场景 | |----------|-------------------|------------------------------| | 从业人员数 | 原始值 | 截面数据分析 | | | 线性插值 | 时间序列建模 | | | 回归填补 | 存在系统性缺失的样本 | -
衍生指标:
- 信息技术人才规模(对数化处理)
- 人才集聚度(区位熵算法):
code复制集聚度 = (城市从业人员数/城市总就业人口) ÷ (全国从业人员数/全国总就业人口)
2.2 数据质量管控
通过三重校验确保数据可靠性:
- 源头校验:比对《中国城市统计年鉴》纸质版与电子版数据
- 横向校验:参考各省统计年鉴中的地市汇总数据
- 纵向校验:计算各城市年增长率,剔除异常波动值(>±50%)
3. 典型应用场景
3.1 空间计量分析
建议采用莫兰指数检验空间自相关:
stata复制spatwmat using "contiguity.dta", name(W) standardize
spatgsa ln_talent, weights(W) moran
常见研究发现:
- 长三角、珠三角城市群呈现显著的空间集聚效应(Moran's I > 0.3)
- 胡焕庸线以西城市多处于"低-低"集聚区
3.2 政策效应评估
采用多期DID模型分析"数字经济示范区"政策效果:
stata复制xtset city_code year
did_imputation Y treat post, covariates(X1 X2) horizons(0/5)
关键控制变量建议:
- 城市信息化水平(宽带接入户数)
- 产业基础(第三产业占比)
- 人力资本(高校数量)
4. 使用注意事项
4.1 数据衔接问题
需特别注意2013年行业分类标准调整:
- 2013年前:包含"电信和其他信息传输服务业"
- 2013年后:细分为"电信、广播电视和卫星传输服务"与"互联网和相关服务"
建议处理方案: - 对2013年前后数据做标准化处理(按新标准回溯调整)
- 或单独标注分类差异年份
4.2 特殊城市处理
以下城市需要特别关注:
- 东莞/中山:不设区的地级市,就业人口统计口径与常规地级市不同
- 资源型城市:如鄂尔多斯、大庆等,数字经济从业人员可能存在结构性低估
- 行政区划调整城市:如巢湖(2011年撤销)、莱芜(2019年撤销)需匹配最新区划
5. 扩展研究建议
5.1 指标深度开发
可尝试构建复合型指标:
- 数字人才密度 = 从业人员数 / 城市建成区面积
- 人才-资本匹配度:结合VC/PE投资数据计算
- 技能更新指数:通过招聘网站技能关键词匹配分析
5.2 多源数据融合
推荐结合以下数据源:
- 企业工商数据:天眼查/企查查中的IT企业注册信息
- 专利数据:CNIPA发明专利中的ICT相关专利
- 网络招聘数据:智联招聘/拉勾网的岗位发布量
经验提示:使用爬虫获取补充数据时,建议设置≥2秒的请求间隔,避免触发反爬机制。对获取的非结构化数据,可采用TF-IDF算法提取关键技能词。
6. 常见问题解决方案
6.1 缺失值处理
不同缺失情形下的应对策略:
- 单年缺失:采用前后两年均值插补
- 连续缺失:
- 经济发达城市:用同类城市均值替代
- 欠发达城市:建立GDP-人才规模回归模型估算
- 系统性缺失:标记为特殊值(如-999),在回归中引入虚拟变量
6.2 异常值修正
典型异常模式及处理方法:
- 突增型异常:
- 检查是否因行政区划调整(如合并周边县市)
- 验证是否对应重大产业项目落地
- 骤降型异常:
- 排除统计口径变化影响
- 核查城市主导产业变迁情况
7. 格式转换技巧
7.1 Excel高级处理
推荐使用Power Query进行数据清洗:
excel复制= Table.ReplaceValue(
源,"市辖区","",Replacer.ReplaceText,{"城市"}
)
关键步骤:
- 规范化城市名称(去除"市"后缀)
- 统一编码格式(文本型数字前补零)
- 创建时间维度表(用于面板数据建模)
7.2 Stata优化操作
面板数据预处理建议流程:
stata复制// 检查平衡面板
xtbalance, range(2003 2024)
// 生成滞后项
bysort city_code: gen L1_talent = L1.info_emp
// 标签变量
label variable info_emp "信息传输、计算机服务从业人员数(万人)"
这套数据在实际研究中的价值,不仅在于其时间跨度和覆盖广度,更在于其与各类经济、社会指标的潜在关联性。笔者在最近一项关于数字人才流动的研究中发现,当城市数字人才规模达到临界值(约占总就业人口1.2%)时,会显著带动本地生产性服务业集聚,这个发现正是基于本数据集的动态分析。