TCMSP数据库操作指南与中药网络药理学研究-代码聚汇网

TCMSP数据库操作指南与中药网络药理学研究

哗啦啦的小流弊

1. TCMSP数据库概述与核心价值

TCMSP（Traditional Chinese Medicine Systems Pharmacology Database and Analysis Platform）作为中药系统药理学的标杆性数据库，其2.3版本虽然已被新版取代，但因其完全免费开放的特性，至今仍是许多科研人员开展中药网络药理学研究的首选工具。这个平台最核心的价值在于建立了"中药-成分-靶点-疾病"四维关联网络，解决了传统中药研究中最棘手的数据整合问题。

特别提示：虽然新版TCMSP增加了更多功能，但2.3版本对于基础研究已经完全够用，且不受订阅限制。建议初次使用者优先掌握旧版操作。

数据库包含的49,900+条数据记录中，最值得关注的是其12项ADME（药物代谢动力学）参数：

OB（口服生物利用度）：>30%为高吸收率成分
DL（类药性）：>0.18提示具有成药潜力
Caco-2（肠上皮渗透性）：预测肠道吸收效率
BBB（血脑屏障穿透性）：评估中枢神经系统作用
HL（半衰期）：反映代谢稳定性

这些参数使得研究者能快速筛选出具有实际生物学意义的活性成分，而非简单罗列化学物质。以黄芪为例，原始文献记载含200+种成分，但通过OB>30%和DL>0.18的双重筛选，有效成分立即缩减至20个左右，极大提高了研究效率。

2. 数据库操作全流程解析

2.1 访问与界面导航

旧版TCMSP的入口隐藏较深，需通过官网(https://www.tcmsp-e.com)点击"Software"→"TCMSP"进入。界面分为三个功能区块：

左侧导航栏：核心功能入口（Herb/Compound/Target/Disease）
中央显示区：数据展示与操作界面
右侧辅助栏：包含参数说明、使用教程等实用资源

操作技巧：建议首次使用时先下载右侧的"User Guide"PDF，其中包含所有筛选参数的临床意义解释，这对后续数据解读至关重要。

2.2 中药成分检索实战

以研究黄芪（Astragalus membranaceus）为例，具体操作流程：

在"Herb Name"输入框键入"huang qi"（支持拼音或拉丁名）
获取初始结果后，点击"ADME Filter"设置筛选条件：
- OB: 30-100
- DL: 0.18-1
点击"Submit"得到符合标准的活性成分列表

关键参数解读：

OB值30%的设定依据：人体临床试验表明，口服吸收率低于30%的成分很难达到有效血药浓度
DL值0.18的阈值：来自Lipinski五规则统计，超过该值的分子更可能具有药物特性

2.3 数据导出与处理

获取的活性成分表建议按以下步骤处理：

全选数据→右键"Copy Table"
粘贴到Excel后重点保留：
- Mol ID（数据库唯一标识符）
- Molecule Name（标准化学名称）
- OB/DL值（用于后续权重分析）
删除无关列（如Herb ID、Herb Name等）

常见问题：直接复制可能导致数据错位，建议先粘贴到记事本清除格式，再导入Excel。

3. 成分深度分析与靶点预测

3.1 分子结构获取与可视化

点击任一成分名称（如"quercetin"）进入详情页，这里提供三大核心功能：

2D/3D分子结构展示：点击图像可下载.mol2格式文件（兼容PyMOL、Chimera等软件）
PubChem跳转链接：获取权威的化合物理化性质数据
相似成分推荐：发现结构类似物扩展研究范围

文件格式选择建议：

分子对接：选择.mol2保留电荷信息

结构展示：.sdf格式兼容性更广

3.2 靶点预测操作指南

获取成分靶点的两种方法：

方法一：批量查询

复制所有Mol ID（如MOL000098、MOL000422等）
切换到"Target"模块
在搜索框粘贴ID，用逗号分隔
设置Score>0.8（置信度阈值）

方法二：单个成分分析

在成分详情页直接查看"Target"栏目
点击靶点名称可查看:
- 基因注释（来自UniProt）
- 相关通路（KEGG链接）
- 已知药物（DrugBank数据）

注意事项：同一靶点在不同成分中可能有不同Score值，建议建立靶点-成分对应表进行交叉验证。

4. 数据验证与结果优化

4.1 靶点可信度评估

TCMSP提供的靶点预测结果需要多维度验证：

交叉数据库验证：
- 通过STITCH(http://stitch.embl.de)查询相同成分的已知互作靶点
- 使用SwissTargetPrediction进行反向验证
实验证据支持：
- 在PubMed检索"成分名 + 靶点名"确认已有研究
- 查阅BindingDB数据库获取实测结合常数
通路合理性分析：
- 将靶点导入KEGG Mapper查看通路分布
- 排除明显不符合药理机制的假阳性结果

4.2 常见问题解决方案

问题1：OB/DL筛选后无结果

可能原因：阈值设置过高
解决方案：逐步降低标准（如OB→20%，DL→0.1），或检查草药拼写

问题2：靶点数量过多

优化方法：
1. 按Score值排序，保留top 20%
2. 结合文献报道频率筛选
3. 使用Cytoscape构建网络，剔除孤立节点

问题3：结构文件无法打开

排查步骤：
1. 确认下载的是.mol2而非网页源码
2. 尝试用文本编辑器打开检查文件完整性
3. 换用PyMOL X版本（对格式兼容性更好）

5. 进阶应用与案例示范

5.1 网络药理学分析流程

基于TCMSP数据开展研究的典型路线：

成分筛选 → 2. 靶点预测 → 3. 网络构建 → 4. 通路富集 → 5. 分子对接

以黄芪抗炎研究为例：

通过TCMSP获得20个活性成分
预测得到78个潜在靶点
使用String数据库构建PPI网络
DAVID分析显示显著富集在TNF/NF-κB通路
用AutoDock验证黄芪甲苷与IKKβ结合能

5.2 数据整合技巧

多数据库联用方案：

TCMSP：获取基础成分-靶点对
BATMAN-TCM：补充通路信息
SymMap：整合症状关联数据
TCMID：验证草药配伍关系

工具推荐：使用R语言的tcmsp包可以批量获取数据，避免手动操作误差。关键代码如下：

r复制library(tcmsp)
huangqi <- get_herb("Astragalus membranaceus")
active_compounds <- filter_adme(huangqi, OB=30, DL=0.18)
targets <- get_targets(active_compounds$Mol_ID)

6. 研究陷阱与质量把控

6.1 数据可靠性警示

TCMSP虽然便捷，但存在以下局限：

预测靶点存在假阳性/阴性
部分草药成分收录不全
ADME参数基于计算模型，与实际可能有偏差

质量控制四原则：

重要结果必须多数据库验证
核心靶点需文献佐证
关键成分应购买标准品进行实验验证
网络分析结果需生物学合理性检验

6.2 典型错误案例

案例1：直接使用全部预测靶点

错误：将Score<0.5的低置信度靶点纳入分析
改进：设置严格阈值，人工复核top靶点

案例2：忽视成分含量因素

问题：某成分OB值高但实际药材中含量极低
解决方案：结合HPLC数据评估成分实际贡献度

案例3：通路解释过度延伸

错误：将代谢通路与药效直接等同
正确做法：区分直接作用靶点与下游效应

在实际研究过程中，我特别建议建立本地数据库存档每次查询结果。TCMSP的数据会不定期更新，但科研项目往往持续数月，保持数据版本的一致性对结果可重复性至关重要。对于关键成分，最好手动记录查询日期和参数设置，这在论文方法部分描述时也会更加准确。