线上购物车服务崩溃：一次数据库索引误删引发的故障复盘与定级

猫咪的室友

1. 故障现象：购物车服务突然"罢工"的那天

那天早上9点，我正喝着咖啡准备开始一天的工作，突然手机开始疯狂震动。监控系统连续发出十几条报警，显示购物车服务的错误率从平时的0.1%飙升到98%。打开用户反馈后台，投诉信息像雪片一样涌来："商品加不进购物车"、"结算按钮点了没反应"、"反复提示系统繁忙"。

最直观的表现是后台数据面板上的几条曲线：

购物车API调用成功率从99.9%暴跌至2%
订单创建量在15分钟内归零
客服系统排队人数突破历史峰值

我们立即查看了服务日志，发现大量数据库查询超时错误。更诡异的是，这些超时查询都集中在购物车相关的几张核心表上。当时第一反应是数据库服务器是不是挂了，但检查发现CPU、内存、磁盘IO都在正常范围内。

2. 应急响应：与时间赛跑的180分钟

面对全站购物功能瘫痪的情况，我们启动了最高级别的应急响应。现在回想起来，当时的处置过程可以分为几个关键阶段：

2.1 黄金30分钟：尝试常规恢复手段

立即重启了购物车服务集群的所有实例
检查了数据库连接池状态，扩大了连接数上限
对购物车服务进行了扩容，实例数从20个增加到50个

但这些措施都像拳头打在棉花上——服务指标纹丝不动。这时我们意识到，问题可能出在更深层的数据层面。

2.2 关键突破：发现索引丢失

一位资深DBA在检查慢查询日志时发现异常：原本应该走索引的查询全部变成了全表扫描。进一步检查发现，cart_item表上的user_id_index索引神秘消失了。这个索引是购物车查询最关键的加速器，没有它，每次查询都要扫描上亿条记录。

2.3 最终修复：重建索引的惊险时刻

我们立即着手重建索引，但这在线上环境是个危险操作：

sql复制-- 重建缺失的索引
CREATE INDEX user_id_index ON cart_item(user_id) 
WITH (ONLINE = ON);  -- 使用在线创建避免锁表

重建过程持续了约25分钟，期间数据库CPU飙升至90%。当看到监控曲线突然回弹的那一刻，整个作战室爆发出一阵欢呼。

3. 根因分析：一个被忽视的"删除"操作

复盘发现，这场事故的种子在前一天的数据库优化工作中就已埋下。当时执行的一个"清理无用索引"的脚本，误将活跃索引标记为废弃索引删除了。具体问题出在：

3.1 变更流程的致命漏洞

没有校验索引最后使用时间
执行删除前缺少二次确认环节
操作时间选在业务低峰期，监控没能立即发现问题

3.2 监控系统的盲区

我们的监控存在三个明显缺陷：

没有对关键索引存在性进行检查
慢查询报警阈值设置过高（>5秒）
缺少业务级指标监控（如加购成功率）

4. 改进措施：从血泪教训中建立的防护网

这次事故后，我们实施了多项改进措施：

4.1 数据库变更安全机制

变更三板斧：
1. 所有DDL操作必须通过审核平台提交
2. 删除操作前自动检查对象使用情况
3. 关键操作要求双人复核
新增防护策略：

sql复制-- 保护关键索引不被误删
CREATE POLICY prevent_critical_index_deletion 
ON ALL TABLES
FOR DROP
TO PUBLIC
WITH CHECK (
    index_name NOT IN ('user_id_index', 'item_id_index')
);

4.2 监控体系升级

建立了多层次的监控防护：

基础设施层：索引存在性检查（每分钟）
查询性能层：慢查询阈值降至500ms
业务指标层：购物车各环节成功率监控

4.3 故障自愈机制

开发了自动化修复脚本，当检测到索引丢失时：

bash复制#!/bin/bash
# 自动检测并重建缺失索引
if ! psql -c "\d cart_item" | grep -q "user_id_index"; then
    echo "[CRITICAL] user_id_index missing, recreating..."
    psql -c "CREATE INDEX CONCURRENTLY user_id_index ON cart_item(user_id);"
    alert_team "Index recreated, please verify"
fi