Scanpy实战：Python单细胞数据分析全流程解析（附代码示例）-代码聚汇网

Scanpy实战：Python单细胞数据分析全流程解析（附代码示例）

About Nature

1. 单细胞数据分析入门指南

单细胞RNA测序（scRNA-seq）技术正在彻底改变我们对细胞异质性的理解。想象一下，传统测序就像把水果沙拉打成糊状后品尝，而单细胞测序则像是把每种水果分开来单独品尝——这才是真正理解复杂生物系统的关键。

在Python生态中，Scanpy无疑是最强大的单细胞分析工具。它就像生物信息学家的瑞士军刀，集成了从数据预处理到高级可视化的全流程功能。我刚开始接触单细胞分析时，曾被R语言的Seurat和Python的Scanpy选择困扰，但后来发现Scanpy在处理大规模数据集时表现更出色，特别是当样本量超过1万个细胞时。

安装Scanpy非常简单，使用pip就能搞定：

python复制pip install scanpy

但要注意，单细胞分析是计算密集型任务。我建议至少准备16GB内存的电脑，处理10万级细胞数据时最好使用服务器。第一次运行时，我被内存不足的问题困扰了很久，后来发现可以先对数据进行下采样。

2. 数据加载与初步探索

2.1 读取10x Genomics数据

10x Genomics是目前最常用的单细胞测序平台。Scanpy提供了专门的方法读取其输出：

python复制import scanpy as sc
adata = sc.read_10x_mtx(
    'path/to/filtered_feature_bc_matrix/',  # 包含matrix.mtx.gz的目录
    var_names='gene_symbols',  # 使用基因符号而非ID
    cache=True  # 缓存加速后续读取
)

这里有个实用技巧：设置cache=True可以显著加快二次读取速度。我在分析50个样本时，这个参数节省了数小时等待时间。

2.2 数据质量检查

拿到数据后，首先要检查细胞和基因的基本信息：

python复制print(adata)

输出类似：

code复制AnnData object with n_obs × n_vars = 10000 × 20000
    obs: 'n_genes', 'total_counts'
    var: 'gene_ids', 'feature_types'

重点关注三个指标：

n_genes_by_counts：每个细胞检测到的基因数
total_counts：每个细胞的UMI总数
pct_counts_mt：线粒体基因占比

可视化这些指标：

python复制sc.pl.violin(adata, ['n_genes_by_counts', 'total_counts', 'pct_counts_mt'], 
             jitter=0.4, multi_panel=True)

3. 数据预处理与质量控制

3.1 细胞和基因过滤

低质量细胞会严重影响下游分析。我通常先过滤掉：

基因数过少（<200）或过多（>2500）的细胞
线粒体基因占比过高（>5%）的细胞

python复制# 基本过滤
sc.pp.filter_cells(adata, min_genes=200)
sc.pp.filter_genes(adata, min_cells=3)

# 线粒体基因过滤
adata.var['mt'] = adata.var_names.str.startswith('MT-')
sc.pp.calculate_qc_metrics(adata, qc_vars=['mt'], percent_top=None, inplace=True)
adata = adata[adata.obs.pct_counts_mt < 5, :]
adata = adata[adata.obs.n_genes_by_counts < 2500, :].copy()

3.2 数据标准化与对数转换

不同细胞的测序深度差异需要校正：

python复制sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)

这里target_sum=1e4是将每个细胞的UMI总数缩放到10,000，相当于CPM标准化。对数转换(log1p)使数据更接近正态分布，适合后续统计分析。

4. 特征选择与降维

4.1 高变基因筛选

并非所有基因都携带有效信息。筛选高变基因能提高信噪比：

python复制sc.pp.highly_variable_genes(adata, min_mean=0.0125, max_mean=3, min_disp=0.5)
sc.pl.highly_variable_genes(adata)

参数解释：

min_mean/max_mean：排除低表达和过高表达的基因
min_disp：选择离散度高的基因

4.2 PCA降维

高维数据难以直接分析，PCA是标准降维方法：

python复制sc.tl.pca(adata, svd_solver='arpack')
sc.pl.pca(adata, color='CST3')  # 用已知标记基因着色

检查主成分贡献率：

python复制sc.pl.pca_variance_ratio(adata, log=True)

通常取解释大部分变异的PCs（肘部位置）。我一般保留20-50个PCs，具体取决于数据复杂度。

5. 细胞聚类与可视化

5.1 构建邻域图

基于PCA结果构建细胞相似性网络：

python复制sc.pp.neighbors(adata, n_neighbors=10, n_pcs=40)

n_neighbors控制局部邻域大小，太大可能模糊真实结构，太小会导致过度分裂。我通常尝试5-15之间的值。

5.2 UMAP可视化

UMAP比t-SNE更能保持全局结构：

python复制sc.tl.umap(adata)
sc.pl.umap(adata, color=['CST3', 'NKG7'])

5.3 Leiden聚类

Scanpy默认使用Leiden算法进行社区检测：

python复制sc.tl.leiden(adata, resolution=0.5)
sc.pl.umap(adata, color=['leiden'])

resolution参数控制聚类粒度：

<0.5：获得较少的大簇
1.0：得到更多小簇

6. 差异表达与标记基因鉴定

6.1 差异表达分析

比较各簇间的基因表达差异：

python复制sc.tl.rank_genes_groups(adata, 'leiden', method='wilcoxon')
sc.pl.rank_genes_groups(adata, n_genes=25, sharey=False)

常用方法比较：

方法	速度	灵敏度	适用场景
t-test	最快	一般	初步筛选
Wilcoxon	中等	高	小样本
逻辑回归	慢	最高	精确分析

6.2 标记基因注释

结合已知标记基因注释细胞类型：

python复制marker_genes = {
    'T细胞': ['CD3D', 'CD3E'],
    'B细胞': ['CD79A', 'MS4A1'],
    '单核细胞': ['CD14', 'LYZ']
}

sc.pl.dotplot(adata, marker_genes, groupby='leiden')

7. 高级分析与技巧

7.1 批次效应校正

多样本整合时，使用BBKNN或Harmony：

python复制# BBKNN整合
sc.external.pp.bbknn(adata, batch_key='sample')

# 或者使用Harmony
import harmonypy
adata.obsm['X_pca_harmony'] = harmonypy.run_harmony(
    adata.obsm['X_pca'], adata.obs, 'sample'
)

7.2 轨迹推断

分析细胞分化轨迹：

python复制sc.tl.diffmap(adata)
sc.pl.diffmap(adata, color='leiden')

7.3 数据保存

保存分析结果供后续使用：

python复制# 完整保存
adata.write('results.h5ad')

# 轻量保存（仅保留必要数据）
adata.raw.to_adata().write('results_light.h5ad')

8. 实战经验分享

在实际项目中，我发现这些细节特别重要：

内存管理：处理大样本时，使用adata.raw = adata备份原始数据后，可以删除中间变量释放内存。
可视化调参：UMAP的min_dist参数对结果影响很大，我通常尝试0.1-0.5之间的值。
标记基因验证：不要完全依赖自动注释，一定要手动检查标记基因的表达模式。
流程复现：使用sc.settings.verbosity = 3记录详细日志，确保分析可重复。

记得第一次分析时，我忽略了线粒体基因过滤，结果聚类完全被低质量细胞主导。这个教训让我明白QC步骤的重要性——垃圾进，垃圾出，在单细胞分析中尤其明显。