1. 项目背景与数据价值
《明清进士题名碑录》作为中国科举制度的重要历史文献,记录了明清两代进士的详细信息。这份数据集包含了进士的籍贯、姓名、帝王年号、总排名等关键字段,为历史学者、社会学家和家谱研究者提供了宝贵的一手资料。
在实际研究中,我发现这份数据至少有三大核心价值:
- 地域人才分布分析:通过籍贯数据可以绘制明清时期的人才地理分布图
- 社会流动研究:结合家庭背景数据可分析科举制度下的社会阶层流动情况
- 历史事件关联:将进士及第年份与重大历史事件对照,可考察政治变动对人才选拔的影响
2. 数据结构解析
2.1 核心字段说明
原始数据通常包含以下结构化字段:
| 字段名 |
数据类型 |
说明 |
研究价值 |
| 姓名 |
字符串 |
进士全名 |
人物传记研究基础 |
| 籍贯 |
字符串 |
详细到府/县 |
人才地理分布分析 |
| 及第年份 |
日期 |
包含帝王年号 |
历史分期研究 |
| 甲次 |
枚举值 |
一/二/三甲 |
人才等级划分 |
| 总排名 |
整数 |
殿试总名次 |
人才选拔标准研究 |
2.2 数据清洗要点
处理历史数据时需要特别注意:
- 地名标准化:明清行政区划变动频繁,需建立古今地名映射表
- 年号转换:将帝王年号转换为公元纪年便于分析
- 缺值处理:部分碑录存在字迹模糊,需要结合地方志补全
实操技巧:使用《中国历史地图集》作为地理基准,建立GIS坐标映射可大幅提升分析精度
3. 典型分析方法
3.1 空间分析方法
通过QGIS等工具可实现:
- 热力图分析:直观展示进士籍贯分布密度
- 缓冲区分析:以府城为中心计算人才产出半径
- 时空立方体:结合时间维度分析人才中心迁移
python复制
import geopandas as gpd
df = gpd.read_file('mingqing_jinshi.geojson')
province_sum = df.dissolve(by='province', aggfunc='count')
3.2 社会网络分析
构建师生-同榜关系网络:
- 节点:进士个体
- 边:同榜/座师关系
- 属性:籍贯、名次等
使用Gephi可分析:
- 关键人物识别(高中心性节点)
- 地域派系划分(模块度分析)
- 人才流动路径
4. 研究案例示范
4.1 江南人才中心形成
分析显示:
- 明代南直隶进士占比27.6%
- 清代江苏+浙江占比达41.2%
- 苏州府在清代每科平均产出12名进士
形成原因:
- 经济基础:太湖流域商品经济发达
- 教育投入:书院密度全国最高
- 文化积累:藏书家群体支撑学术传承
4.2 科举与灾荒关联研究
通过时间序列分析发现:
- 大旱次年进士录取量平均下降18%
- 黄河决口影响山东、河南籍考生
- 疫情对南方省份冲击更显著
5. 数据获取与处理建议
5.1 主要数据源
- 国家图书馆碑帖菁华数据库
- 哈佛燕京学社藏科举文献
- 各地方志中的选举志部分
5.2 处理工具链
推荐工作流程:
- 数据采集:Python爬虫+OCR识别
- 清洗整理:OpenRefine+正则表达式
- 地理编码:QGIS历史地图配准
- 分析建模:R语言tidyverse生态
避坑指南:明代"辽东都司"等特殊政区需要单独建立地理编码规则
6. 研究延伸方向
- 家族代际研究:结合家谱数据追踪科举世家
- 文学史重构:通过进士文集分析文风演变
- 建筑史印证:进士宅第的空间特征研究
- 饮食文化传播:通过籍贯分布追踪菜系扩散
在实际研究中,我发现将科举数据与粮价数据、气候重建数据等多源史料结合,往往能碰撞出意想不到的发现。比如通过对比进士产量与米价波动,可以量化经济压力对教育投入的影响程度。