基于Flink CDC实现MongoDB到ClickHouse的实时数据同步

jean luo

1. 项目概述

最近在数据仓库项目中遇到一个典型需求：将 MongoDB 中的业务数据实时同步到 ClickHouse 进行分析。传统方案要么延迟太高，要么实现太复杂。经过一番调研和实践，最终基于 Flink CDC 3.5 + Flink 1.20 实现了一套稳定可靠的实时同步方案。

这个方案的核心优势在于：

直接监听 MongoDB 的 Change Stream，对源库压力极小
全量+增量无缝衔接，保证数据一致性
基于 Flink Checkpoint 实现 Exactly-Once 语义
使用 ClickHouse 的 ReplacingMergeTree 引擎处理幂等写入

整套方案已经在生产环境稳定运行，日处理千万级数据。下面分享具体实现细节和踩坑经验。

2. 环境准备

2.1 MongoDB 副本集配置

关键点：Flink CDC 的 MongoDB Connector 底层依赖 Change Stream，而 Change Stream 只在副本集或分片集群上可用。单机 MongoDB 无法使用这个方案。

2.1.1 配置文件准备

创建 MongoDB 配置文件 /data/mongodb/conf/mongod.conf：

yaml复制# 必须配置副本集名称
replication:
  replSetName: rs0

storage:
  engine: wiredTiger
  wiredTiger:
    engineConfig:
      cacheSizeGB: 4
  dbPath: /data/db
  journal:
    enabled: true

systemLog:
  destination: file
  logAppend: true
  path: /data/db/mongod.log

net:
  bindIp: 0.0.0.0
  port: 27017

security:
  authorization: enabled
  keyFile: /data/db/mongo-keyfile

2.1.2 生成密钥文件

bash复制openssl rand -base64 756 > /data/mongodb/data/mongo-keyfile
chmod 400 /data/mongodb/data/mongo-keyfile
chown 999:999 /data/mongodb/data/mongo-keyfile

2.1.3 启动 MongoDB 容器

bash复制docker run -d \
  --name=mongodb \
  -v /data/mongodb/data:/data/db \
  -v /data/mongodb/conf/mongod.conf:/etc/mongod.conf \
  -p 27017:27017 \
  mongo:4.4 \
  mongod --config /etc/mongod.conf

2.1.4 初始化副本集

bash复制# 创建管理员用户
docker exec -it mongodb mongo --eval '
db.getSiblingDB("admin").createUser({
 user: "mongoadmin",
 pwd: "YourSecurePassword",
 roles: [{ role: "root", db: "admin" }]
})'

# 初始化副本集
docker exec -it mongodb mongo -u mongoadmin -p YourSecurePassword \
  --authenticationDatabase admin --eval "rs.initiate()"

# 配置外部访问地址（重要！）
docker exec -it mongodb mongo -u mongoadmin -p YourSecurePassword \
  --authenticationDatabase admin --eval '
var cfg = rs.conf();
cfg.members[0].host = "mongo.example.com:27017";
rs.reconfig(cfg);'

2.2 数据表准备

2.2.1 MongoDB 源表

javascript复制// 创建访问日志集合
db.createCollection("access_logs", {
 validator: {
   $jsonSchema: {
     bsonType: "object",
     required: ["_id", "c_d", "channel", "device_id", "url", "version"],
     properties: {
       _id: { bsonType: "objectId" },
       user_id: { bsonType: "string" },
       c_d: { bsonType: "date" },
       channel: { bsonType: "string" },
       device_id: { bsonType: "string" },
       ip: { bsonType: "string" },
       remark: { bsonType: "string" },
       trace_id: { bsonType: "string" },
       url: { bsonType: "string" },
       version: { bsonType: "string" }
     }
   }
 }
});

// 创建索引
db.access_logs.createIndex({ user_id: 1 }, { name: "idx_user_id" });
db.access_logs.createIndex({ c_d: 1 }, { name: "idx_c_d", expireAfterSeconds: 1209600 });

2.2.2 ClickHouse 目标表

sql复制CREATE TABLE dw.ods_mongo_access_logs
(
    `_id` String COMMENT 'MongoDB 文档 ID',
    `user_id` Nullable(String) COMMENT '用户 ID',
    `device_id` String COMMENT '设备 ID',
    `trace_id` Nullable(String) COMMENT '请求 Trace ID',
    `channel` String COMMENT '渠道',
    `version` String COMMENT '版本',
    `ip` Nullable(String) COMMENT '请求 IP',
    `url` String COMMENT '请求 URL',
    `remark` String COMMENT '备注',
    `create_date` Nullable(DateTime('Asia/Shanghai')) COMMENT '创建时间',
    `sync_time` DateTime DEFAULT now() COMMENT '数据同步时间'
)
ENGINE = ReplacingMergeTree(sync_time)
ORDER BY (device_id, create_date, _id)
PARTITION BY toYYYYMMDD(create_date)
SETTINGS allow_nullable_key = 1;

表引擎选择理由：

ReplacingMergeTree 根据 ORDER BY 键去重，保留 sync_time 最大的记录
配合 Flink CDC 的全量+增量同步模式，天然实现幂等写入
按天分区便于数据管理

3. Flink 应用开发

3.1 Maven 依赖配置

xml复制<properties>
    <flink.version>1.20.1</flink.version>
</properties>

<dependencies>
    <!-- Flink 核心 -->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-java</artifactId>
        <version>${flink.version}</version>
    </dependency>
    
    <!-- Flink CDC MongoDB -->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-connector-mongodb-cdc</artifactId>
        <version>3.5.0</version>
    </dependency>
    
    <!-- ClickHouse JDBC -->
    <dependency>
        <groupId>com.clickhouse</groupId>
        <artifactId>clickhouse-jdbc</artifactId>
        <version>0.8.5</version>
        <classifier>all</classifier>
    </dependency>
    
    <!-- Flink JDBC Connector -->
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-connector-jdbc</artifactId>
        <version>3.3.0-1.20</version>
    </dependency>
</dependencies>

3.2 核心同步逻辑

java复制public class MongoToClickHouseSync {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1); // CDC 源建议单并行度

        // 1. 创建 MongoDB CDC Source
        MongoDBSource<String> mongoSource = MongoDBSource.<String>builder()
                .hosts("mongo.example.com:27017")
                .username("flink_user")
                .password("YourSecurePassword")
                .databaseList("app_data")
                .collectionList("app_data.access_logs")
                .deserializer(new JsonDebeziumDeserializationSchema())
                .build();

        // 2. 定义 Row 类型
        RowTypeInfo rowType = new RowTypeInfo(
                Types.STRING, Types.STRING, Types.STRING, Types.STRING,
                Types.STRING, Types.STRING, Types.STRING, Types.STRING,
                Types.STRING, Types.SQL_TIMESTAMP
        );

        // 3. 构建数据处理管道
        env.fromSource(mongoSource, WatermarkStrategy.noWatermarks(), "MongoDB CDC Source")
           .flatMap(new MongoDocParser()).returns(rowType)
           .addSink(JdbcSink.sink(
                "INSERT INTO ods_mongo_access_logs VALUES (?,?,?,?,?,?,?,?,?,?)",
                (ps, row) -> {
                    ps.setString(1, row.getField(0));
                    ps.setString(2, row.getField(1));
                    // 其他字段设置...
                },
                JdbcExecutionOptions.builder()
                    .withBatchSize(2000)
                    .withBatchIntervalMs(5000)
                    .build(),
                new JdbcConnectionOptions.JdbcConnectionOptionsBuilder()
                    .withUrl("jdbc:clickhouse://ck.example.com:8123/dw")
                    .withDriverName("com.clickhouse.jdbc.ClickHouseDriver")
                    .build()
           ));

        env.execute("MongoDB to ClickHouse Sync");
    }
}

3.3 MongoDB 文档解析器

java复制public static class MongoDocParser implements FlatMapFunction<String, Row> {
    @Override
    public void flatMap(String value, Collector<Row> out) throws Exception {
        JsonNode root = objectMapper.readTree(value);
        String operationType = root.path("operationType").asText();
        
        // 只处理 insert/update/replace 事件
        if (!"insert".equals(operationType) && !"update".equals(operationType)) {
            return;
        }
        
        JsonNode fullDocNode = root.path("fullDocument");
        if (fullDocNode.isMissingNode()) {
            return;
        }
        
        // 解析文档字段
        Row row = Row.of(
            getOid(doc, "_id"),
            getString(doc, "user_id"),
            // 其他字段...
        );
        out.collect(row);
    }
    
    // 字段解析工具方法...
}

4. 部署与运维

4.1 打包发布

bash复制mvn clean package -P prod -DskipTests

4.2 提交 Flink 作业

bash复制flink run -c com.example.MongoToClickHouseSync target/flink-mongo-to-ck.jar

4.3 监控与调优

关键指标监控：

源端延迟：监控 sourceIdleTime 指标
处理吞吐：numRecordsInPerSecond
Checkpoint 状态：lastCheckpointDuration

性能调优参数：

yaml复制# flink-conf.yaml
execution.checkpointing.interval: 30000
execution.checkpointing.timeout: 600000
state.backend: rocksdb
state.checkpoints.dir: hdfs:///flink/checkpoints

5. 常见问题排查

5.1 Change Stream 不可用

错误信息：

code复制The $changeStream stage is only supported on replica sets

解决方案：

确认 MongoDB 已配置副本集
检查副本集状态：rs.status()
确保连接字符串包含副本集名称

5.2 数据重复写入

现象：ClickHouse 中出现重复数据

解决方案：

确认使用 ReplacingMergeTree 引擎
检查 ORDER BY 键是否包含唯一标识字段
确保 sync_time 字段正确更新

5.3 同步延迟高

优化方向：

增加 Flink 任务并行度（注意 CDC 源需保持单并行度）

调整 JDBC Sink 的批量参数：

java复制JdbcExecutionOptions.builder()
    .withBatchSize(5000)  // 增大批次大小
    .withBatchIntervalMs(2000) // 缩短批次间隔
    .build()

优化 ClickHouse 表结构，减少索引数量

6. 生产环境建议

资源隔离：为 CDC 任务单独分配 TaskManager，避免影响其他业务
监控告警：配置 Flink 指标监控和告警规则
版本兼容：
- Flink CDC 3.5 兼容 Flink 1.20+
- MongoDB 驱动版本建议 4.4+
安全配置：
- 使用专用数据库账号，最小权限原则
- 开启 SSL 加密传输

这套方案已经在多个生产环境稳定运行，最高支持日均 10 亿级数据同步。实际应用中可以根据业务需求调整同步策略和性能参数。

已经到底了哦

精选内容

1 跨平台富文本编辑器中PDF导入技术解析与实践 2 Spring Boot 404错误深度解析与解决方案 3 E语言自定义数据类型实战与优化指南 4 三菱PLC QCPU与QD77MS16运动控制模块架构解析 5 本科生毕业论文AI写作工具全攻略与避坑指南 6 SpringBoot+Vue构建宠物健康管理平台开发实践 7 配电房智能监控系统：架构设计与关键技术解析 8 Gemini Embedding 2多模态嵌入模型技术解析与应用 9 RabbitMQ消息可靠性保障机制与实践指南 10 高校计算机实训室智能管理系统设计与实践

最新内容

Python上下文管理器原理与实践指南

上下文管理器是Python中管理资源的核心机制，通过`__enter__`和`__exit__`方法实现资源的自动获取与释放。其核心原理是利用with语句确保代码块执行前后必然触发的操作逻辑，这种设计模式能有效解决资源泄漏问题，同时简化异常处理流程。在工程实践中，上下文管理器广泛应用于文件操作、数据库连接、线程锁等场景，通过标准库contextlib模块还能快速实现轻量级管理器。热门的异步编程场景也通过`__aenter__`和`__aexit__`支持协程资源管理。掌握上下文管理器不仅能写出更健壮的Python代码，也是理解with语句底层机制的关键。

MS400埋刮板输送机CAD设计规范与工程实践

埋刮板输送机作为连续输送设备的核心类型，通过封闭槽体内的刮板链条实现物料稳定输送，其密封性和多点装卸料特性使其在粮食、化工等行业广泛应用。从机械设计原理来看，这类设备的关键在于运动部件与槽体的精密配合，CAD图纸需要准确表达链条张紧力、槽体截面等参数。工程实践中，MS400型号的标准化设计涉及驱动装置、刮板链条等核心部件，合理的图层管理和参数化建模能显著提升设计效率。针对常见的物料堵塞和链条跑偏问题，需要结合物料特性和机械动力学原理进行优化，这些经验对输送机械的CAD设计具有普遍参考价值。

企业级网络安全纵深防御体系设计与关键技术

网络安全纵深防御（Defense in Depth）是一种通过多层次防护措施构建梯次防御体系的安全策略。其核心原理是在网络边界、内部网络、主机应用和数据层部署多样化的安全控制，确保单点防护失效时仍能有效阻挡攻击。这种架构能显著提升企业安全防护能力，据Verizon报告显示可阻断87%的渗透尝试。在技术实现上，需要结合下一代防火墙（NGFW）、Web应用防火墙（WAF）、入侵检测系统（IDS）等关键组件，并遵循最小权限原则进行配置。典型应用场景包括金融、医疗等对安全性要求高的行业，特别是在防范勒索软件（如WannaCry）和高级持续性威胁（APT）方面效果显著。

去蜂窝网络技术：通信架构的范式转变与工程实践

去蜂窝网络（Cell-Free）作为无线通信领域的重要创新，通过分布式天线阵列和协同信号处理技术，实现了从传统蜂窝架构到用户中心架构的范式转变。其核心技术原理包括大规模MIMO（mMIMO）和相干联合传输，通过数百个小型接入点（AP）的协同工作，显著提升边缘用户速率和网络容量。在工程实践中，去蜂窝网络展现出动态负载均衡和三维覆盖等独特优势，适用于超高密度场馆覆盖和工业物联网等场景。面对回传网络设计和同步精度等挑战，采用光纤和毫米波混合方案以及混合同步技术是有效的解决方案。未来，去蜂窝网络将与智能反射面（RIS）结合，进一步推动通信技术的演进。

MySQL 8.4.7 RPM自定义安装与性能优化指南

MySQL作为最流行的开源关系型数据库，其安装部署方式直接影响生产环境的稳定性。RPM包管理系统通过自动处理依赖关系，显著降低了部署复杂度。在MySQL 8.4.7版本中，优化器改进带来23%的事务吞吐量提升，配合ARM架构的NEON指令加速，使其成为高并发场景的首选。本文以电商平台和实时分析系统为典型应用场景，详细解析如何通过RPM重建实现自定义目录安装，涵盖从依赖检查、spec文件修改到systemd服务配置的全流程，特别针对/opt/mysql等非标准路径的权限管理和性能调优提供实践方案。

Python时间处理：从基础到高级实践

时间处理是编程中的基础但关键任务，涉及时间戳、时间元组等核心概念。时间戳以Unix纪元为基准，提供高精度跨平台的时间表示，而时间元组(struct_time)则通过9个结构化元素实现人性化访问。在Python中，time和calendar模块提供了丰富的时间操作功能，包括时间格式化(strftime)、解析(strptime)以及日历计算。这些技术在处理日志记录、数据分析等场景中尤为重要，特别是在需要考虑时区、夏令时等复杂因素时。通过合理选择时间表示形式和优化处理逻辑，可以显著提升时间相关操作的性能和可靠性。

双功能雷达通信系统：原理、优化与MATLAB实现

波束成形技术作为现代无线通信的核心技术，通过精确控制天线阵列的相位和幅度实现空间信号定向传输。其技术价值在于提升频谱利用率并降低硬件冗余，在5G、雷达探测等场景广泛应用。双功能雷达通信（DFRC）系统将雷达探测与无线通信功能融合，采用联合波束成形算法解决频谱资源共享问题。该系统通过凸优化方法实现雷达检测概率与通信误码率的平衡，典型应用包括智能交通车载通信和无人机集群协同探测。MATLAB仿真显示，该技术可使频谱效率提升30%以上，同时满足雷达主瓣宽度5-10度、旁瓣电平低于-20dB的性能要求。

SaaS客服系统架构设计与实战优化

现代客服系统作为企业级SaaS平台的核心组件，其技术实现远不止简单的即时通讯功能。从架构设计角度看，需要解决多租户隔离、状态实时同步、消息可靠投递等分布式系统典型挑战。关键技术实现涉及WebSocket长连接管理、Redis缓存优化、分库分表策略等工程实践。在性能优化层面，复合索引设计、预聚合计算、分页缓存等数据库技巧能显著提升查询效率。对于前端工程，基于事件溯源的状态管理方案能有效解决复杂UI状态同步问题。这些技术方案共同支撑了日均百万级会话量的商业客服系统，为电商、金融等行业提供了高可用的实时沟通能力。

C语言关系运算与逻辑运算核心解析

关系运算和逻辑运算是编程语言中的基础概念，它们构成了程序决策能力的核心。从底层原理来看，关系运算符(>, <, ==等)用于比较操作数，返回布尔值；逻辑运算符(&&, ||, !)则用于组合多个条件。这些运算在工程实践中具有重要价值，特别是在条件判断、循环控制和错误处理等场景中。理解短路求值特性可以优化性能，避免不必要的计算；掌握运算符优先级则能预防常见错误。在嵌入式开发、算法实现和系统编程等领域，合理运用这些运算能显著提升代码质量和执行效率。本文基于十年C语言开发经验，深入解析关系运算与逻辑运算的工程实践技巧。

最大似然估计(MLE)原理与应用实战指南

最大似然估计是统计推断中的核心方法，通过寻找使观测数据出现概率最大的参数值来实现参数估计。其基本原理是构建似然函数，并利用对数变换简化求导过程，最终得到参数的最优估计。这种方法在机器学习、数据科学等领域有广泛应用，如逻辑回归参数估计、神经网络训练等。通过离散型和连续型分布的案例分析，可以掌握MLE的标准解题流程和常见技巧，避免参数空间忽略、独立性假设错误等常见陷阱。理解MLE不仅有助于统计建模，也为深度学习等前沿领域奠定理论基础。