告别复杂代码！用pm3包轻松搞定罕见病三队列研究的数据平衡（附早产数据实战）

一个灵活的死胖子

用pm3包实现三队列数据平衡：从理论到早产儿研究实战

在临床研究和流行病学领域，病例对照研究设计常常面临组间基线不平衡的挑战，尤其是当涉及罕见病或多组比较时。传统统计方法往往难以处理这类复杂场景，而倾向评分匹配(PSM)作为一种强大的数据平衡工具，正在被越来越多研究者采用。本文将介绍一个专为三组比较设计的R包——pm3，并通过早产儿低体重研究案例，展示如何用简洁代码解决复杂的数据平衡问题。

1. 为什么三组倾向评分匹配如此重要？

在观察性研究中，组间基线特征不平衡是影响研究结论可靠性的主要障碍。随机对照试验(RCT)通过随机分组解决这一问题，但回顾性研究只能通过统计方法模拟这一过程。传统PSM方法主要针对两组比较，而现实研究中经常需要同时比较三个或更多组别。

以早产儿研究为例：当我们需要比较不同种族(如白人、黑人和亚裔)对新生儿低体重发生率的影响时，三组间母亲年龄、孕前体重等基线特征可能存在显著差异。pm3包填补了这一方法学空白，专门针对三组比较场景设计，具有以下独特优势：

精准匹配：针对三个组别同时优化匹配，而非简单两两比较
效率提升：一键式操作替代传统复杂编程流程
兼容性强：支持连续变量和多分类协变量
结果直观：直接输出匹配后数据集和统计指标

提示：pm3特别适合病例数较少的罕见病研究，能够最大限度保留有价值的研究样本

2. pm3包核心功能与安装

pm3是CRAN官方收录的R包，专为三组倾向评分匹配设计。安装方法极为简单：

r复制install.packages("pm3")
library(pm3)

包内自带演示数据集prematurity，包含早产低体重儿研究的核心变量：

变量名	描述	类型
low	是否<2500g低体重儿	二分类
age	母亲年龄	连续
lwt	末次月经体重(磅)	连续
race	种族(1=白人,2=黑人,3=亚裔)	多分类
ptl	早产史次数	计数
ht	高血压病史	二分类

核心函数pm3()参数解析：

r复制pm3(data, x, y, covs, factor)

data: 输入数据集
x: 分组变量(必须为三分类)
y: 结局变量
covs: 需要平衡的协变量(连续或分类)
factor: 数据中存在的分类变量(至少指定两个)

3. 实战：种族对低体重儿影响的匹配分析

我们以pm3内置的早产数据为例，演示完整分析流程。研究问题：不同种族(race)对低体重儿(low)发生率的影响，需平衡母亲年龄(age)、末次月经体重(lwt)和早产史(ptl)等混杂因素。

3.1 数据准备与匹配执行

r复制data(prematurity)
bc <- prematurity

# 执行三组匹配
g <- pm3(data=bc, x="race", y="low", 
         covs=c("age","lwt","ptl"),
         factor=c("ui","low"))

匹配结果g是一个包含三个匹配后子数据集的列表对象。提取合并后的数据集：

r复制mbc <- g[["mbc"]]

3.2 匹配效果评估

使用tableone包比较匹配前后组间平衡性：

r复制library(tableone)

# 定义分析变量
allVars <- c("age", "lwt", "ptl","ht")
fvars <- c("ht")

# 匹配前比较
tab_before <- CreateTableOne(vars=allVars, strata="race", 
                            data=bc, factorVars=fvars)
print(tab_before, smd=TRUE)

# 匹配后比较  
tab_after <- CreateTableOne(vars=allVars, strata="race",
                           data=mbc, factorVars=fvars)
print(tab_after, smd=TRUE)

关键指标解读：

SMD(标准化均数差)：<0.1表示组间差异可忽略
P值：匹配后P值应增大，表示组间差异减小

3.3 结果可视化

建议绘制匹配前后协变量分布图：

r复制library(ggplot2)

# 年龄分布对比
ggplot(bc, aes(x=age, fill=factor(race))) + 
  geom_density(alpha=0.5) +
  ggtitle("匹配前年龄分布")

ggplot(mbc, aes(x=age, fill=factor(race))) +
  geom_density(alpha=0.5) + 
  ggtitle("匹配后年龄分布")

4. 方法学考量与进阶技巧

虽然pm3极大简化了三组匹配流程，但使用时仍需注意以下关键点：

协变量选择原则：

包含所有已知混杂因素
避免包含中间变量(因果链上的变量)
连续变量优先保持原始形式

常见问题解决方案：

报错"factor must have at least two elements"：在factor参数中至少指定两个分类变量
匹配样本量减少：调整匹配容差或考虑其他匹配算法
部分变量仍不平衡：检查是否遗漏重要协变量

与其他R包的对比优势：

特性	pm3	MatchIt	optmatch
专为三组设计	✓	✗	△
支持多分类变量	✓	△	✗
代码简洁度	★★★★★	★★★☆☆	★★☆☆☆
输出完整性	★★★★☆	★★★★★	★★★☆☆