10x Genomics单细胞转录组上游分析全流程指南

戴小青

1. 单细胞转录组上游分析全流程解析

作为一名长期奋战在生物信息学一线的分析员，我深知单细胞转录组数据分析的门槛让许多初学者望而却步。今天我就以10x Genomics平台数据为例，手把手带你走完从原始FASTQ文件到基因表达矩阵的全流程。这个流程我已经在实验室重复执行过上百次，期间踩过的坑、总结的技巧都会毫无保留地分享给你。

2. 环境准备与工具配置

2.1 Cell Ranger安装与配置

Cell Ranger是10x Genomics官方推出的分析套件，它集成了STAR比对器、UMI计数和细胞识别等核心功能。最新版本(7.1.0)对内存管理做了优化，处理效率比早期版本提升约40%。

安装步骤：

访问10x Genomics官网下载对应版本的Linux二进制包
解压后建议将整个目录移动到/opt目录下：
```
bash复制sudo mv cellranger-7.1.0 /opt/
```
添加环境变量到~/.bashrc：
```
bash复制export PATH=/opt/cellranger-7.1.0:$PATH
```
注意：不同版本路径需要相应调整，建议用tab键自动补全确认路径

验证安装：

bash复制cellranger testrun --id=tiny

这个测试流程会下载约100MB的测试数据并运行简化版分析，通常10分钟内可完成。

2.2 参考基因组准备

参考基因组的选择直接影响比对效率和数据质量。10x提供预构建的参考基因组包，包含以下关键文件：

基因组FASTA文件
基因注释GTF文件
STAR索引文件
转录本序列

对于人类样本，推荐使用最新版的GRCh38（2020-A版本）。下载后建议进行md5校验：

bash复制md5sum refdata-gex-GRCh38-2020-A.tar.gz

比对官方提供的校验值，确保文件完整。

3. 数据获取与质量评估

3.1 测试数据准备

10x官方提供的PBMC数据集是理想的入门材料。除了文中提到的1k细胞数据集，还有以下推荐：

pbmc_10k_v3：约10,000个细胞
pbmc_5k_protein_v3：带表面蛋白标记的数据
neuron_10k_v3：神经元细胞数据

下载后文件结构示例：

code复制pbmc_1k_v3_fastqs/
├── pbmc_1k_v3_S1_L001_R1_001.fastq.gz
├── pbmc_1k_v3_S1_L001_R2_001.fastq.gz
├── pbmc_1k_v3_S1_L002_R1_001.fastq.gz
└── pbmc_1k_v3_S1_L002_R2_001.fastq.gz

3.2 质量评估实战

虽然Cell Ranger会自动生成QC报告，但我强烈建议先做原始数据质量检查。使用FastQC+MultiQC组合：

bash复制fastqc pbmc_1k_v3_*.fastq.gz -o qc_results
multiqc qc_results -o multiqc_report

重点关注：

测序质量值（Q30占比应>90%）
接头污染（Illumina通用接头含量）
细胞barcode质量（前16bp的碱基质量）
UMI复杂度（R1文件的8-16bp位置）

4. Cell Ranger核心流程详解

4.1 参数配置技巧

创建csv格式的样本信息表：

code复制sample_id,fastqs_path
pbmc_1k_v3,/path/to/pbmc_1k_v3_fastqs

运行命令示例：

bash复制cellranger count \
  --id=pbmc_1k_results \
  --transcriptome=/path/to/refdata-gex-GRCh38-2020-A \
  --fastqs=/path/to/pbmc_1k_v3_fastqs \
  --sample=pbmc_1k_v3 \
  --expect-cells=1000 \
  --localcores=16 \
  --localmem=64

关键参数解析：

--expect-cells：指导细胞识别算法，与实际相差±20%不影响结果
--chemistry：默认自动检测，但v2/v3试剂盒必须明确指定
--r1-length：当barcode+UMI长度非标准28bp时需要调整

4.2 流程执行监控

运行时会输出实时日志，重点关注：

code复制>>> Waiting for 6 jobs to complete...
>>> Loading reference genome...
>>> Mapping reads to genome...
>>> Counting UMIs...
>>> Detecting valid cells...

使用top命令监控内存使用，64GB内存的服务器处理1k细胞约需30分钟。

5. 结果解读与质控

5.1 输出文件结构

主要结果目录：

code复制pbmc_1k_results/
├── outs/
│   ├── raw_feature_bc_matrix/  # 原始矩阵
│   ├── filtered_feature_bc_matrix/  # 过滤后矩阵
│   ├── analysis/  # 聚类分析结果
│   ├── metrics_summary.csv  # 质控指标汇总
│   └── web_summary.html  # 可视化报告

5.2 关键质控指标

在web_summary.html中重点关注：

测序指标：
- 总reads数（通常需>50,000 reads/cell）
- Q30比例（>90%为优）
- 比对率（>60%为合格）
细胞指标：
- 中位基因数（1k细胞应在500-5,000之间）
- 中位UMI数（反映测序深度）
- 双细胞率（<5%为佳）
比对指标：
- 外显子比对比例（>50%）
- 内含子比对比例（<30%）

6. 开源替代方案实践

6.1 kallisto | bustools流程

安装工具链：

bash复制conda install -c bioconda kallisto bustools

构建索引：

bash复制kallisto index -i transcriptome.idx refdata-gex-GRCh38-2020-A/genes/genes.fa

定量流程：

bash复制kb count -i transcriptome.idx \
  -g refdata-gex-GRCh38-2020-A/genes/genes.t2g \
  -x 10xv3 \
  -o kb_out \
  -t 16 \
  pbmc_1k_v3_*.fastq.gz

优势对比：

指标	Cell Ranger	kallisto/bustools
运行时间	中等	快（约快2倍）
内存消耗	高（64GB）	低（32GB足够）
准确性	优	良
定制灵活性	低	高

7. 常见问题解决方案

7.1 内存不足报错

现象：

code复制Error: not enough memory

解决方案：

增加--localmem参数值
使用--mempercore=8限制每核内存
对大型数据集考虑分批次处理

7.2 比对率低

可能原因：

参考基因组版本不匹配
测序数据污染
化学试剂版本指定错误

排查步骤：

bash复制cellranger mkfastq --dump=bam # 检查原始bam文件
samtools flagstat possorted_genome_bam.bam # 查看比对统计

7.3 细胞数异常

当检测到的细胞数与预期差异>50%时：

检查--expect-cells设置
重新运行调整--force-cells参数
手动检查barcode排名图（在web_summary.html中）

8. 实战经验分享

样本混合实验时，建议先用cellranger mkfastq处理每个lane的数据，再用cellranger count的--libraries参数合并
对于低质量样本，可以尝试：
```
bash复制--include-introns \
--no-bam \
--no-secondary
```
这些参数能提升约15%的基因检出率
定期清理临时文件：
```
bash复制rm -rf _* SC_RNA_*
```
大型项目运行中可能产生数百GB临时文件
使用--nosecondary跳过二级分析可以节省30%时间，当只关注表达矩阵时非常有用