Python Plotly实现生物信息学双轴富集分析图-代码聚汇网

Python Plotly实现生物信息学双轴富集分析图

镝不咸

1. 项目背景与需求解析

在生物信息学数据分析领域，富集分析（Enrichment Analysis）是解读高通量实验结果的常规操作。而Nature Communication等顶级期刊上常见的双X轴条形图+折线图组合，能够直观展示通路富集结果（条形图）与基因数量分布（折线图）的关联关系。这种图表在展示GO/KEGG分析结果时尤为常见，但现有工具如clusterProfiler、Metascape等默认输出样式往往无法直接生成此类复合图表。

实际科研工作中，我们常遇到三个痛点：

商业软件（如GraphPad Prism）操作复杂且需要手动调整坐标轴对齐
R语言ggplot2等工具需要编写大量自定义代码
在线工具功能有限，难以实现期刊级别的出版要求

2. 技术方案选型

2.1 核心工具对比

工具类型	代表方案	适用场景	主要缺陷
本地统计软件	GraphPad Prism	交互式调整	收费昂贵，批量处理困难
编程语言方案	R+ggplot2	可编程自动化	学习曲线陡峭
在线绘图平台	BioRender	模板化操作	订阅制收费，自定义程度低
混合方案	Plotly+Python	兼顾交互性与可编程性	需要基础编码能力

最终选择基于Plotly的Python实现方案，原因在于：

开源免费，符合学术研究需求
支持Web交互式图表导出静态图片
可通过Jupyter Notebook实现分析-绘图全流程

2.2 数据准备规范

原始数据需包含三列核心信息：

Pathway名称（字符型）
富集显著性（-log10(p-value)，数值型）
关联基因数量（数值型）

示例数据结构：

python复制import pandas as pd
data = pd.DataFrame({
    'Pathway': ['Cell cycle', 'DNA repair', 'Metabolic process'],
    'logPvalue': [5.2, 4.8, 3.5], 
    'GeneCount': [32, 28, 15]
})

3. 完整实现流程

3.1 基础图表构建

python复制import plotly.graph_objects as go
from plotly.subplots import make_subplots

# 创建双坐标轴画布
fig = make_subplots(specs=[[{"secondary_y": True}]])

# 添加条形图（主坐标轴）
fig.add_trace(
    go.Bar(
        x=data['Pathway'],
        y=data['logPvalue'],
        name='-log10(p-value)',
        marker_color='#1f77b4'
    ),
    secondary_y=False
)

# 添加折线图（次坐标轴）
fig.add_trace(
    go.Scatter(
        x=data['Pathway'],
        y=data['GeneCount'],
        name='Gene Count',
        line=dict(color='#ff7f0e', width=3)
    ),
    secondary_y=True
)

3.2 样式精修关键参数

python复制# 坐标轴调整
fig.update_layout(
    xaxis=dict(
        title='Pathway',
        tickangle=-45,
        tickfont=dict(size=12)
    ),
    yaxis=dict(
        title='-log10(p-value)',
        titlefont=dict(color='#1f77b4'),
        tickfont=dict(color='#1f77b4'),
        range=[0, data['logPvalue'].max()*1.1]
    ),
    yaxis2=dict(
        title='Gene Count',
        titlefont=dict(color='#ff7f0e'),
        tickfont=dict(color='#ff7f0e'),
        overlaying='y',
        side='right',
        range=[0, data['GeneCount'].max()*1.2]
    ),
    plot_bgcolor='rgba(0,0,0,0)'
)

# 图例位置调整
fig.update_layout(legend=dict(
    orientation="h",
    yanchor="bottom",
    y=1.02,
    xanchor="right",
    x=1
))

4. 进阶优化技巧

4.1 动态排序功能实现

通过添加下拉菜单实现数据排序交互：

python复制buttons = [
    dict(label='By P-value',
         method='update',
         args=[{'y': [data.sort_values('logPvalue', ascending=False)['logPvalue']]}]),
    dict(label='By Gene Count',
         method='update',
         args=[{'y': [data.sort_values('GeneCount', ascending=False)['logPvalue']]}])
]

fig.update_layout(
    updatemenus=[dict(
        type="dropdown",
        direction="down",
        buttons=buttons,
        x=0.5,
        y=1.15
    )]
)

4.2 出版级导出设置

python复制fig.write_image("enrichment_plot.png", 
               scale=3,  # 提高分辨率
               width=800,
               height=600,
               engine="kaleido")

5. 常见问题解决方案

5.1 坐标轴不对齐问题

现象：左右Y轴刻度线未对齐
解决方法：

python复制import numpy as np

# 计算最佳刻度间隔
max_left = data['logPvalue'].max()
max_right = data['GeneCount'].max()
tickinterval = np.lcm(int(max_left), int(max_right)) / 10

fig.update_yaxes(dtick=tickinterval, secondary_y=False)
fig.update_yaxes(dtick=tickinterval, secondary_y=True)

5.2 长标签显示不全

优化方案：

python复制fig.update_layout(
    margin=dict(l=50, r=50, b=150),
    xaxis=dict(
        tickmode='array',
        tickvals=list(range(len(data))),
        ticktext=[name[:15]+'...' if len(name)>15 else name for name in data['Pathway']]
    )
)

6. 完整代码封装

推荐将核心功能封装为可复用函数：

python复制def plot_enrichment(data, top_n=20, output_file=None):
    """绘制双轴富集分析图
    
    Parameters:
    data (DataFrame): 包含Pathway, logPvalue, GeneCount三列
    top_n (int): 显示top多少条通路
    output_file (str): 输出文件路径
    """
    # 数据预处理
    data = data.sort_values('logPvalue', ascending=False).head(top_n)
    
    # 创建图表
    fig = make_subplots(specs=[[{"secondary_y": True}]])
    
    # 添加图形元素
    fig.add_trace(...)
    fig.add_trace(...)
    
    # 样式调整
    fig.update_layout(...)
    
    # 输出控制
    if output_file:
        fig.write_image(output_file, scale=3)
    
    return fig

实际调用示例：

python复制result = pd.read_csv('kegg_enrichment.csv')
plot_enrichment(result, top_n=15, output_file='kegg_plot.png')

7. 替代方案对比

7.1 R语言实现方案

r复制library(ggplot2)
library(cowplot)

p1 <- ggplot(data, aes(x=reorder(Pathway, logPvalue), y=logPvalue)) +
  geom_bar(stat="identity", fill="#1f77b4") +
  coord_flip()

p2 <- ggplot(data, aes(x=reorder(Pathway, logPvalue), y=GeneCount)) +
  geom_line(group=1, color="#ff7f0e", size=1.5) +
  geom_point(color="#ff7f0e") +
  coord_flip()

aligned_plots <- align_plots(p1, p2, align="hv")
ggdraw(aligned_plots[[1]]) + draw_plot(aligned_plots[[2]])

7.2 纯HTML交互方案

javascript复制// 使用D3.js实现
const margin = {top: 20, right: 80, bottom: 60, left: 60};
const width = 800 - margin.left - margin.right;
const height = 500 - margin.top - margin.bottom;

const svg = d3.select("#chart")
  .append("svg")
  .attr("width", width + margin.left + margin.right)
  .attr("height", height + margin.top + margin.bottom)
  .append("g")
  .attr("transform", `translate(${margin.left},${margin.top})`);

// 添加条形图
svg.selectAll("bar")
  .data(data)
  .enter()
  .append("rect")
  .attr("fill", "#1f77b4")
  .attr("x", d => xScale(d.Pathway))
  .attr("y", d => yScale1(d.logPvalue))
  .attr("width", xScale.bandwidth())
  .attr("height", d => height - yScale1(d.logPvalue));

// 添加折线图
const line = d3.line()
  .x(d => xScale(d.Pathway) + xScale.bandwidth()/2)
  .y(d => yScale2(d.GeneCount));

svg.append("path")
  .datum(data)
  .attr("fill", "none")
  .attr("stroke", "#ff7f0e")
  .attr("stroke-width", 2)
  .attr("d", line);

8. 学术出版特别注意事项

字体规范：
- 使用Arial或Times New Roman字体
- 坐标轴标签字号不小于8pt
- 图例文字不小于7pt
颜色规范：
- 避免使用纯红/绿色组合（色盲友好）
- 推荐使用ColorBrewer配色方案
```
python复制import plotly.express as px
colors = px.colors.qualitative.Plotly
```
分辨率要求：
- 最小300dpi
- 矢量图优先（PDF/SVG格式）
版权声明：
- 使用开源工具时注明版本号
- 示例：
Generated with Plotly.py 5.15.0 (https://plotly.com/python/)

9. 性能优化建议

当处理大规模富集结果（>100条通路）时：

数据预处理优化：

python复制# 使用numba加速计算
from numba import jit

@jit(nopython=True)
def calculate_logp(pvalues):
    return -np.log10(pvalues)

渲染优化：

python复制fig.update_layout(
    hovermode='x unified',  # 合并悬停提示
    showlegend=True,
    hoverlabel=dict(
        bgcolor="white",
        font_size=12,
        font_family="Arial"
    )
)

动态加载方案：

python复制from dash import Dash, dcc, html

app = Dash(__name__)
app.layout = html.Div([
    dcc.Dropdown(
        id='dataset-selector',
        options=[{'label': 'GO', 'value': 'go'},
                 {'label': 'KEGG', 'value': 'kegg'}],
        value='go'
    ),
    dcc.Graph(id='enrichment-plot')
])

10. 扩展应用场景

10.1 多组学数据整合

展示转录组+蛋白组联合分析结果：

python复制fig.add_trace(
    go.Scatter(
        x=data['Pathway'],
        y=data['ProteomicsFoldChange'],
        name='Protein FC',
        line=dict(color='#2ca02c', width=2, dash='dot')
    ),
    secondary_y=True
)

10.2 时间序列分析

python复制for timepoint in ['0h', '6h', '12h']:
    fig.add_trace(
        go.Bar(
            x=data['Pathway'],
            y=data[f'logP_{timepoint}'],
            name=f'{timepoint} p-value',
            opacity=0.7
        ),
        secondary_y=False
    )

10.3 交互式报告集成

将图表嵌入Jupyter Notebook实现动态探索：

python复制from ipywidgets import interact

@interact
def filter_pathway(min_pvalue=(1, 10), min_genes=(5, 50)):
    filtered = data[(data['logPvalue']>=min_pvalue) & 
                   (data['GeneCount']>=min_genes)]
    return plot_enrichment(filtered)