明清进士数据数字化处理与历史分析实践

你认识小鲍鱼吗

1. 项目背景与数据价值

《明清进士题名碑录》作为中国科举制度的重要历史文献，记录了明清两代进士的详细信息。这些石刻碑文不仅是研究古代官僚选拔制度的第一手资料，更是考察历史人物、地域文化和社会流动的珍贵数据库。我最近在整理这批数据时发现，系统性地数字化处理这些信息，能够为历史研究、社会学分析和地方志编纂提供前所未有的便利。

进士数据中最具研究价值的字段包括：姓名、籍贯（精确到府/州/县）、科考年份（对应帝王年号）、殿试名次等。将这些信息结构化后，我们可以进行许多有趣的分析：比如江浙地区在明清时期的科举优势究竟有多明显？某些"进士家族"是如何实现代代蝉联的？不同皇帝在位期间的取士偏好有何差异？

2. 数据来源与采集方法

2.1 原始文献解析

现存的进士题名碑主要收藏于北京孔庙和国子监博物馆，部分散见于地方文庙。碑文格式相对统一：顶部刻有"奉天承运皇帝制曰"等套话，正文按甲第名次排列，每位进士独占一行，记载格式通常为："第一甲赐进士及第某某某贯某省某府某县民/军/匠籍"。

我在国家图书馆找到了1941年哈佛燕京学社出版的《明清进士题名碑录索引》，这套影印本虽然存在个别字迹模糊的情况，但相比实地拓碑，仍是目前最完整的电子化基础。需要注意的是，部分清代碑文存在满汉文对照的情况，需要特别注意满文部分的人名音译问题。

2.2 数据清洗要点

原始数据转换为结构化表格时，有几个关键处理环节：

籍贯标准化：明代实行"省-府-县"三级制，清代增设"直隶州"和"散州"，需要建立古今地名对照表。例如"顺天府大兴县"要标注为"北直隶-顺天府-大兴县"（明）、"直隶-顺天府-大兴县"（清）
年号纪年转换：碑文使用年号纪年（如"万历二十六年"），需要转换为公元纪年并关联帝王信息。特别注意明清之际的年号交叉期（如崇祯十七年即顺治元年）
姓名处理：部分进士姓名中存在异体字（如"邨"与"村"）、避讳字（如玄烨时期的"玄"字缺笔），需要统一规范

重要提示：明代初期存在"南北榜"事件，建文二年（1400年）和永乐二年（1404年）的进士籍贯数据需要单独标注政治因素影响

3. 数据结构设计

3.1 核心字段说明

经过多次迭代，最终确定的数据结构包含以下关键字段：

字段名	类型	说明	示例
name	string	进士姓名	张居正
native_place	json	籍贯三级结构
exam_year	int	科考公元年份	1568
era_name	string	年号+年份	隆庆二年
emperor	string	在位帝王	明穆宗
rank	int	殿试总排名	194
rank_type	string	甲第类型	二甲
ancestry	string	户籍类型	民籍

3.2 特殊数据处理

遇到几种特殊情况需要特别标注：

寄籍进士：实际居住地与户籍地分离的情况，如徽商子弟常在扬州参考
旗人进士：清代满蒙汉军八旗的旗籍需要单独标注（如"正黄旗满洲"）
复姓处理：欧阳、司马等复姓在碑文中可能被误拆为单姓

python复制# 示例：籍贯解析函数
def parse_native_place(text):
    """
    处理形如"浙江杭州府钱塘县"的籍贯描述
    返回标准化的三级JSON结构
    """
    if "府" in text:
        province, rest = text.split("省") if "省" in text else (None, text)
        prefecture, county = rest.split("府")
        return {
            "province": province,
            "prefecture": prefecture + "府",
            "county": county
        }
    # 处理直隶州等特殊情况...