科研绘图：分组散点图的数据可视化实践-代码聚汇网

科研绘图：分组散点图的数据可视化实践

谈国平

1. 科研绘图中的分组散点图价值解析

在生物信息学和实验数据分析领域，分组散点图（Grouped Scatter Plot）是揭示多组数据关系的利器。这种可视化方法特别适合呈现以下场景：

同一实验条件下不同样本组的响应差异
多种突变类型对蛋白功能的影响比较
不同算法模型在相同测试集上的表现对比

我曾在多个蛋白质结构分析项目中使用这种图表，它能直观展示各组数据的分布特征和趋势差异。相比普通的散点图，分组散点图的核心优势在于：

保留原始数据点的分布信息
显示各组回归趋势线的对比
通过边际分布图展示单变量特征
在同一坐标系中实现多维数据对比

2. 数据准备与配色方案设计

2.1 模拟数据生成策略

在真实科研场景中，我们通常需要先验证可视化方法的有效性。以下是模拟三组相关数据的典型方法：

python复制import numpy as np
import pandas as pd

np.random.seed(42)  # 确保结果可复现

def generate_group(n, x_range, slope, intercept, group_name):
    """生成具有线性关系的模拟数据组"""
    x = np.random.uniform(x_range[0], x_range[1], n)
    y = slope * x + intercept + np.random.normal(0, 1.5, n)
    return pd.DataFrame({'X': x, 'Y': y, 'Group': group_name})

# 合并三组不同参数的数据
df = pd.concat([
    generate_group(45, (5, 15), 1.5, 2, 'Group 1'),
    generate_group(45, (8, 20), 1.0, 5, 'Group 2'), 
    generate_group(45, (12, 25), 0.5, 8, 'Group 3')
])

关键参数说明：

n：每组数据点的数量（建议30-50个点）

x_range：X值的取值范围

slope/intercept：线性关系的斜率和截距

最后添加的随机噪声模拟实验误差

2.2 学术级配色方案选择

期刊图表对配色有严格要求，需要兼顾：

印刷和屏幕显示的兼容性
色盲人群的可辨识度
不同组别的明确区分

以下是经过实际投稿验证的配色方案：

python复制# 方案1：蓝紫粉经典组合
colors = ["#A8D6E6", "#B4B4D8", "#E5A8B4"]

# 方案2：自然生态色系  
colors = ["#9ACA59", "#2E54A1", "#249087"]

# 方案3：高对比度方案
colors = ["#9ACA59", "#F5B482", "#E6687B"]

# 方案4：暖色调组合
colors = ["#B5631B", "#249087", "#EF949E"]

在实际项目中，我通常会：

先用ColorBrewer工具测试配色效果
打印灰度图检查明度对比
使用色盲模拟器验证区分度

3. 基础版实现：散点图+直方图组合

3.1 图形框架搭建

使用Seaborn的JointGrid创建带边际分布的主图区域：

python复制import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.ticker import AutoMinorLocator

# 设置学术图表样式
plt.rcParams["font.family"] = "Times New Roman"
plt.rcParams["axes.linewidth"] = 1.2
plt.rcParams["xtick.direction"] = "in"
plt.rcParams["ytick.direction"] = "in"

# 创建图形框架
g = sns.JointGrid(data=df, x="X", y="Y", hue="Group", 
                 palette=colors, height=6, ratio=5, space=0)

3.2 核心绘图步骤分解

主图区域绘制：

python复制ax = g.ax_joint
for i, (name, group) in enumerate(df.groupby("Group")):
    # 绘制带置信区间的回归线
    sns.regplot(data=group, x="X", y="Y", ax=ax, color=colors[i],
               scatter=False, line_kws={"linestyle": "--", "linewidth": 1.5})
    
    # 绘制带描边的散点
    sns.scatterplot(data=group, x="X", y="Y", ax=ax, color=colors[i],
                   s=60, alpha=0.8, edgecolor='black', linewidth=0.5)

边际直方图绘制：

python复制# X轴方向堆叠直方图
sns.histplot(data=df, x="X", hue="Group", palette=colors, 
            ax=g.ax_marg_x, multiple="stack", alpha=0.6,
            edgecolor='white', linewidth=0.3)

# Y轴方向堆叠直方图  
sns.histplot(data=df, y="Y", hue="Group", palette=colors,
            ax=g.ax_marg_y, multiple="stack", alpha=0.6,
            edgecolor='white', linewidth=0.3)

3.3 学术图表细节打磨

坐标轴优化：

python复制ax.set_xlabel("X Value (units)", fontsize=14, fontweight='bold')
ax.set_ylabel("Y Value (units)", fontsize=14, fontweight='bold')

# 添加次要刻度线
ax.xaxis.set_minor_locator(AutoMinorLocator())
ax.yaxis.set_minor_locator(AutoMinorLocator())
ax.tick_params(axis='both', which='minor', length=3)

统计标注技巧：

python复制stats = [
    ("Group 1: $R^2$=0.822", colors[0]),
    ("Group 2: $R^2$=0.686", colors[1]),
    ("Group 3: $R^2$=0.378", colors[2])
]

for i, (txt, col) in enumerate(stats):
    ax.text(0.05, 0.95 - i*0.06, txt, transform=ax.transAxes,
           color=col, fontsize=12, fontweight='bold')

4. 进阶版实现：云雨图风格变体

4.1 箱线图边际分布改造

将边际直方图替换为箱线图，增强分布特征展示：

python复制g = sns.JointGrid(data=df, x="X", y="Y", hue="Group",
                 palette=colors, height=6, ratio=5, space=0.05)

# 主图绘制保持不变...

# X轴方向箱线图
offset = 0.3
for i, (name, group) in enumerate(df.groupby("Group")):
    sns.boxplot(data=group, x="X", y=np.full(len(group), -i*offset),
               ax=g.ax_marg_x, color=colors[i], width=0.4,
               boxprops={'alpha':0.8, 'edgecolor':'black', 'linewidth':0.8},
               fliersize=0)

# Y轴方向箱线图
for i, (name, group) in enumerate(df.groupby("Group")):
    sns.boxplot(data=group, y="Y", x=np.full(len(group), i*offset),
               ax=g.ax_marg_y, color=colors[i], width=0.4,
               boxprops={'alpha':0.8, 'edgecolor':'black', 'linewidth':0.8},
               fliersize=0)

4.2 混合风格的优势对比

特征	直方图版	箱线图版
数据密度展示	优秀	一般
异常值识别	困难	容易
中位数对比	不直观	直观
组间重叠度	清晰	较模糊
适用场景	大数据量	需突出统计特征

5. 实战经验与避坑指南

5.1 期刊投稿常见问题

字体嵌入问题：

保存PDF时务必嵌入字体：

python复制plt.savefig("figure.pdf", bbox_inches='tight', dpi=300, 
           metadata={'CreationDate': None})

颜色模式要求：
- Nature系列期刊要求CMYK模式
- 生物信息学期刊通常接受RGB模式
分辨率标准：
- 线图：1200dpi
- 照片：300dpi
- 混合图：600dpi

5.2 性能优化技巧

当数据点超过10,000时：

使用alpha参数降低透明度
考虑抽样或数据分箱
换用hexbin或kdeplot

python复制# 大数据量优化示例
sns.kdeplot(data=df, x="X", y="Y", hue="Group", 
           palette=colors, alpha=0.5, levels=5)

5.3 动态交互扩展

对于需要探索的数据，可以结合Plotly创建交互版：

python复制import plotly.express as px

fig = px.scatter(df, x="X", y="Y", color="Group",
                trendline="ols", marginal_x="box",
                marginal_y="histogram")
fig.show()

6. 不同学科的应用变体

6.1 生物医学应用

添加显著性标记和误差条：

python复制from statannotations import Annotator

pairs = [("Group 1", "Group 2"), ("Group 1", "Group 3")]
annotator = Annotator(ax, pairs, data=df, x="Group", y="Y")
annotator.configure(test="t-test_ind").apply_and_annotate()

6.2 机器学习应用

增加置信区间和预测带：

python复制sns.regplot(data=group, x="X", y="Y", ax=ax, 
           scatter=False, ci=95,
           line_kws={"linewidth":1.5})

6.3 时间序列应用

添加连接线显示轨迹：

python复制for name, group in df.groupby("Group"):
    group = group.sort_values("X")
    ax.plot(group["X"], group["Y"], color=colors[i], 
           alpha=0.3, linestyle="--")

在完成图表后，我通常会进行三步检查：

打印A4尺寸检查元素比例
用色盲模拟工具验证可读性
请不同背景的同事解读图表信息