MySQL与Elasticsearch数据同步方案实践

露克

1. 问题背景与核心挑战

在Web应用开发中，我们经常遇到这样的场景：用户提交的数据需要同时写入MySQL数据库和Elasticsearch（ES）搜索引擎。MySQL作为关系型数据库负责数据的持久化存储和事务处理，而ES则提供高效的全文检索能力。这两套系统如何保持数据一致性，同时满足实时搜索需求，成为开发者面临的关键技术难题。

我最近在重构一个电商平台的商品管理系统时，就遇到了这个典型问题。当商家后台修改商品信息后，前端用户搜索商品时偶尔会出现"数据不同步"的情况——MySQL中已更新的价格在ES搜索结果中仍显示旧值。更棘手的是，业务方要求搜索结果的延迟必须控制在毫秒级。

2. 技术方案选型与对比

2.1 常见同步方案分析

在解决MySQL与ES数据同步问题时，业界主要有以下几种方案：

双写模式：应用层同时向MySQL和ES写入数据
- 优点：实现简单，延迟低
- 缺点：无法保证原子性，可能出现单边写入失败
定时同步：定期全量/增量同步MySQL数据到ES
- 优点：逻辑简单，可靠性高
- 缺点：延迟高，资源消耗大
基于binlog的同步：通过解析MySQL二进制日志触发ES更新
- 优点：解耦业务代码，可靠性高
- 缺点：架构复杂，有一定延迟
消息队列异步处理：通过消息队列解耦写入过程
- 优点：削峰填谷，系统容错性好
- 缺点：需要维护消息队列，存在最终一致性

2.2 方案选择依据

针对毫秒级搜索和数据一致性的双重需求，我们最终选择了"双写+消息队列补偿"的混合方案。这个方案的核心思路是：

主流程采用双写模式保证实时性
通过消息队列建立补偿机制保证最终一致性
引入版本控制解决并发冲突

选择这个方案主要基于以下考虑：

电商场景对搜索实时性要求极高（500ms内）
允许短暂的数据不一致（最终一致性）
系统需要具备高可用性，能应对突发流量

3. 详细实现方案

3.1 系统架构设计

整体架构分为三层：

写入层：处理业务请求，实现双写逻辑
补偿层：通过消息队列处理失败事件
监控层：检测数据一致性状态

code复制应用服务 → MySQL → Binlog监听 → 消息队列 → 补偿服务 → ES
      ↘___________直接写入___________↗

3.2 核心代码实现

3.2.1 双写逻辑实现

php复制class ProductService {
    public function updateProduct($productId, $data) {
        // 开启MySQL事务
        DB::beginTransaction();
        
        try {
            // 1. 更新MySQL
            $product = Product::find($productId);
            $product->fill($data);
            $product->version += 1; // 乐观锁版本控制
            $product->save();
            
            // 2. 同步更新ES
            $esClient = new ElasticsearchClient();
            $esParams = [
                'index' => 'products',
                'id' => $productId,
                'body' => [
                    'doc' => $data,
                    'doc_as_upsert' => true
                ]
            ];
            $esResponse = $esClient->update($esParams);
            
            // 3. 提交事务
            DB::commit();
            
            return true;
        } catch (\Exception $e) {
            // 记录失败日志并发送到消息队列
            DB::rollBack();
            Log::error("Product update failed: ".$e->getMessage());
            $this->sendToRetryQueue($productId, $data);
            return false;
        }
    }
}

3.2.2 补偿服务实现

php复制class RetryConsumer {
    public function handle($message) {
        $productId = $message['product_id'];
        $data = $message['data'];
        
        // 获取当前最新版本
        $currentVersion = Product::find($productId)->version;
        
        // 检查消息中的版本是否过期
        if ($message['version'] < $currentVersion) {
            Log::info("Skip outdated version: ".$message['version']);
            return;
        }
        
        // 重试ES更新
        try {
            $esClient = new ElasticsearchClient();
            $esParams = [
                'index' => 'products',
                'id' => $productId,
                'body' => [
                    'doc' => $data,
                    'doc_as_upsert' => true
                ]
            ];
            $esClient->update($esParams);
        } catch (\Exception $e) {
            // 重试失败，延迟后重新入队
            $this->requeue($message, 60); // 60秒后重试
        }
    }
}

3.3 版本控制机制

为了解决并发更新导致的数据一致性问题，我们引入了版本控制机制：

每次更新时递增version字段
补偿服务只处理最新版本的更新
ES文档中同样存储version字段用于比对

sql复制ALTER TABLE products ADD COLUMN version INT DEFAULT 0;

4. 关键优化点

4.1 性能优化

ES批量写入：对于批量操作，使用ES的bulk API减少网络开销
连接池管理：复用MySQL和ES的连接，避免频繁创建销毁
异步化处理：非关键路径使用异步写入（如商品浏览数统计）

4.2 可靠性保障

重试策略：采用指数退避算法进行重试（1s, 2s, 4s, 8s...）
死信队列：超过最大重试次数的消息转入死信队列人工处理
监控告警：对同步延迟和失败率设置监控阈值

4.3 一致性校验

我们开发了定期校验脚本来确保数据一致性：

php复制class ConsistencyChecker {
    public function checkProducts($batchSize = 1000) {
        $lastId = 0;
        
        do {
            $products = Product::where('id', '>', $lastId)
                ->orderBy('id')
                ->take($batchSize)
                ->get();
                
            if ($products->isEmpty()) break;
            
            foreach ($products as $product) {
                $esData = $this->getFromES($product->id);
                if (!$this->compareData($product, $esData)) {
                    $this->triggerRepair($product->id);
                }
            }
            
            $lastId = $products->last()->id;
        } while (true);
    }
}