单细胞多组学中ATAC-seq与空间转录组的跨模态分析

ONE实验室

1. 项目背景与核心价值

在单细胞多组学研究中，ATAC-seq（染色质可及性测序）与空间转录组技术的联合分析正成为解析细胞异质性和空间功能的关键手段。百创空间（BGI-Research）平台推出的多层级（Level）数据分析框架中，Level1作为基础数据层，如何准确映射到更高级别的分析层级（Level2/3/4）直接决定了后续生物学发现的可靠性。

这个技术方案解决的核心痛点是：当研究人员在Level1完成基础数据生成（如细胞聚类、开放染色质区域鉴定）后，需要将单细胞级别的ATAC信号与空间转录组spot进行精准匹配，从而在更高层级实现表观遗传调控与空间基因表达的关联分析。这种跨层级、跨模态的数据映射存在三大挑战：

坐标系统不兼容（单细胞悬浮vs空间固定坐标）
分辨率差异（单细胞精度vs空间spot的50-100μm直径）
数据稀疏性（ATAC的peak稀疏性与转录组dropout）

2. 技术方案设计原理

2.1 整体分析流程架构

采用"先对齐后映射"的两阶段策略：

坐标系统对齐：通过组织切片H&E图像与空间转录组spot的配准，建立空间坐标系与单细胞数据的桥梁
特征空间映射：利用Wasserstein距离计算ATAC peaks与空间转录组基因的联合分布相似性

python复制# 伪代码示例：Wasserstein距离计算
def wasserstein_mapping(atac_cell, st_spot):
    # 计算染色质开放度与基因表达的联合分布
    atac_dist = normalize(atac_cell.peaks)
    rna_dist = normalize(st_spot.genes)
    return scipy.stats.wasserstein_distance(atac_dist, rna_dist)

2.2 关键算法选型

空间配准：采用Elastix图像配准工具包（参数：B-spline变换+互信息度量）
细胞类型匹配：基于Seurat的CCA锚定方法（修正参数：dims=1:30, k.filter=200）
跨模态映射：改进的SpaOTsc算法（λ=0.1, ε=0.01的熵正则化项）

注意：当组织切片存在明显变形时，建议先使用ANTs进行非线性配准，否则会导致边缘区域映射偏差超过20%

3. 实操步骤详解

3.1 数据预处理标准流程

ATAC数据：
- Cell Ranger ATAC输出 → Signac进行peak calling
- 去除黑名单区域和线粒体reads
- 使用TF-IDF标准化（min.cutoff='q25'）
空间转录组：
- Space Ranger输出 → SPARK进行基因表达去噪
- 剔除低质量spot（UMI<500 & 基因数<200）
- 执行SCTransform归一化

3.2 跨层级映射核心代码

r复制# R代码示例：使用Seurat v5进行跨模态对齐
atac <- CreateSeuratObject(atac_counts, assay = "ATAC")
st <- Load10X_Spatial("path/to/spatial")

# 共享基因特征提取
joint.features <- intersect(
  rownames(atac@assays$ATAC@ranges),
  VariableFeatures(st)
)

# 执行多模态整合
anchors <- FindTransferAnchors(
  reference = atac,
  query = st,
  features = joint.features,
  reduction = "cca"
)

# 预测空间spot的ATAC特征
predictions <- TransferData(
  anchorset = anchors,
  refdata = atac$celltype,
  weight.reduction = st[["pca"]],
  dims = 1:30
)

3.3 参数优化经验

k.weight参数：建议设置为min(200, min(ncol(atac), ncol(st)))
空间平滑系数：对于发育样本用0.3，肿瘤样本用0.7（抑制微环境噪声）
映射置信度阈值：保留prediction.score.max > 0.6的spot

4. 质量评估与问题排查

4.1 评估指标体系

指标名称	计算公式	合格阈值
映射一致性	1 - JS散度(ATAC/RNA分布)	>0.65
空间自相关	Moran's I指数	>0.3
细胞类型保真度	ARI指数(与scRNA比对)	>0.5

4.2 典型问题解决方案

问题1：边缘spot映射失败

原因：组织切片的边缘变形导致坐标偏移
修复：使用DeepST的patch对齐功能（grid_size=128）

问题2：稀有细胞类型丢失

原因：CCA降维时的dominant effect
修复：在FindTransferAnchors中设置dims.use=1:15

问题3：技术批次效应干扰

解决方案：运行Harmony整合后再映射（theta=2, lambda=1）

5. 高级应用场景

5.1 时空发育轨迹重建

通过Level1→Level2映射后，可结合PAGA算法：

在ATAC层面构建伪时间轴
将轨迹投影到空间坐标
识别驱动空间模式的关键TF（如SOX9在肠隐窝）

5.2 肿瘤微环境解析

案例：在肝癌样本中发现：

免疫排斥区（PD-L1+）对应ATAC的CTCF motif开放
肿瘤前沿（TGFβ+）具有BATF motif可及性特征
使用STAGATE可进一步识别niche-specific调控网络

5.3 多组学数据融合

推荐工具链：

预处理：CellBender去除环境RNA
降维：MOFA+进行多组学因子分解
可视化：Vitessce绘制3D空间表观图谱

6. 性能优化技巧

内存管理：
- 对于>1M cells的数据，使用OnDiskMatrix替代内存矩阵
- 设置future.globals.maxSize=8000*1024^2

GPU加速：

python复制import cupy as cp
def gpu_wasserstein(a,b):
    a_gpu = cp.asarray(a)
    b_gpu = cp.asarray(b)
    return cp.linalg.norm(a_gpu - b_gpu, ord=1)

并行计算：
- 使用BiocParallel进行分块处理（BPPARAM=MulticoreParam(workers=8)）
- 对大型空间数据集采用knn分块策略（k=50）

在实际项目中，我们通过上述方法将10x Genomics Visium与snATAC的联合分析时间从72小时缩短到6小时（AWS r5.8xlarge实例）。关键是要在Level1阶段就做好数据质量控制，否则后续映射步骤会放大噪声。一个实用的检查点是：确保ATAC数据的TSS enrichment score >8，空间数据的UMI中位数>1000。

已经到底了哦