Docker部署Kafka：环境一致性、快速部署与弹性扩展-代码聚汇网

Docker部署Kafka：环境一致性、快速部署与弹性扩展

陈易铭

1. 为什么选择 Docker 部署 Kafka？

在分布式系统开发中，Kafka 作为高吞吐量的消息队列系统，传统部署方式需要经历以下繁琐步骤：

安装 Java 运行环境
下载并解压 Kafka 二进制包
手动配置 ZooKeeper 和 Kafka 服务
设置系统服务并管理日志文件

而使用 Docker 部署 Kafka 带来了三大核心优势：

环境一致性保障：开发、测试、生产环境使用完全相同的容器镜像，避免了"在我机器上能跑"的经典问题。我在实际项目中遇到过因 JDK 版本差异导致的生产事故，使用容器后这类问题彻底消失。

资源隔离与快速部署：每个服务运行在独立容器中，CPU、内存资源隔离。通过 docker-compose 文件，原本需要半天完成的部署现在只需 5 分钟。上周帮团队新成员搭建环境时，从零到可用只用了 7 分钟。

弹性扩展能力：当需要增加 Broker 节点时，只需修改 compose 文件中的副本数即可。去年双十一大促，我们通过简单调整 compose 配置，在 1 小时内完成了集群从 3 节点到 8 节点的扩容。

2. 环境准备与基础配置

2.1 系统要求详解

生产环境推荐配置与开发环境有显著差异：

组件	开发环境	生产环境
Docker	20.10+	最新稳定版 + docker-ce
内存	4GB (单节点)	16GB+ (建议 32GB)
存储	本地磁盘	SSD 阵列或 NVMe 存储
网络	默认桥接	自定义 overlay 网络

重要提示：在 Linux 系统上务必调整内核参数，否则可能遇到性能问题：

bash复制# 增加文件描述符限制
echo 'fs.file-max=1000000' >> /etc/sysctl.conf
# 提高网络缓冲区
echo 'net.core.rmem_max=16777216' >> /etc/sysctl.conf
echo 'net.core.wmem_max=16777216' >> /etc/sysctl.conf
sysctl -p

2.2 Docker 安装最佳实践

不同系统的安装方式存在细微差别：

Ubuntu/Debian 系统：

bash复制# 卸载旧版本
sudo apt-get remove docker docker-engine docker.io containerd runc

# 安装依赖
sudo apt-get update
sudo apt-get install -y \
    apt-transport-https \
    ca-certificates \
    curl \
    gnupg \
    lsb-release

# 添加官方GPG密钥
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg

# 设置稳定版仓库
echo \
  "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu \
  $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

# 安装Docker引擎
sudo apt-get update
sudo apt-get install -y docker-ce docker-ce-cli containerd.io

# 验证安装
sudo docker run hello-world

CentOS/RHEL 系统：

bash复制# 卸载旧版本
sudo yum remove docker \
    docker-client \
    docker-client-latest \
    docker-common \
    docker-latest \
    docker-latest-logrotate \
    docker-logrotate \
    docker-engine

# 安装依赖
sudo yum install -y yum-utils

# 添加官方仓库
sudo yum-config-manager \
    --add-repo \
    https://download.docker.com/linux/centos/docker-ce.repo

# 安装Docker引擎
sudo yum install -y docker-ce docker-ce-cli containerd.io

# 启动服务
sudo systemctl start docker
sudo systemctl enable docker

# 验证安装
sudo docker run hello-world

3. Kafka 架构深度解析

3.1 核心组件协作机制

ZooKeeper 的关键作用：

集群成员管理：通过临时节点(ephemeral nodes)检测 Broker 存活状态
配置存储：保存 topic 配置、ACL 权限等元数据
领导者选举：协调 partition 的 leader 选举过程
通知机制：通过 watch 机制实现配置变更的实时推送

Broker 的存储设计：

分区(Partition)是物理存储单元，每个分区对应一个文件目录
采用顺序写入(append-only)的方式提升吞吐
通过零拷贝(zero-copy)技术减少内核态与用户态的数据拷贝

消息存储格式：

code复制+----------------+---------+---------+--------------+
| 消息长度(4字节) | CRC32(4) | 魔数(1) | 属性(1字节) |
+----------------+---------+---------+--------------+
|           时间戳(8字节)           | Key长度(4)   |
+-----------------------------------+-------------+
| Key内容(N字节) | Value长度(4) | Value内容(M字节) |
+---------------+-------------+-------------------+

3.2 网络通信模型

Kafka 使用 Reactor 模式处理网络请求：

Acceptor 线程负责接收新连接
Processor 线程处理网络请求并将其放入请求队列
IO 线程池从队列中取出请求进行业务处理
响应通过 Processor 线程返回客户端

关键配置参数：

yaml复制# 网络线程数（建议等于CPU核心数）
KAFKA_NUM_NETWORK_THREADS: 8  
# IO线程数（建议3倍CPU核心数）
KAFKA_NUM_IO_THREADS: 24
# 最大请求大小（默认1MB，大消息需调整）
KAFKA_SOCKET_REQUEST_MAX_BYTES: 104857600

4. 单节点部署实战

4.1 容器编排文件详解

yaml复制version: '3.8'

services:
  zookeeper:
    image: confluentinc/cp-zookeeper:7.5.0
    container_name: zookeeper
    hostname: zookeeper
    ports:
      - "2181:2181"
    environment:
      ZOOKEEPER_CLIENT_PORT: 2181
      ZOOKEEPER_TICK_TIME: 2000  # 心跳间隔(ms)
      ZOOKEEPER_SYNC_LIMIT: 2    # 允许follower落后leader的心跳数
      ZOOKEEPER_INIT_LIMIT: 5    # 初始化连接时最长心跳数
    volumes:
      - ./data/zookeeper/data:/var/lib/zookeeper/data
      - ./data/zookeeper/logs:/var/lib/zookeeper/log
    networks:
      - kafka-network

  kafka:
    image: confluentinc/cp-kafka:7.5.0
    container_name: kafka
    hostname: kafka
    depends_on:
      - zookeeper
    ports:
      - "9092:9092"  # 外部访问端口
      - "9093:9093"  # 容器间通信端口
    environment:
      KAFKA_BROKER_ID: 1
      KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181
      KAFKA_ADVERTISED_LISTENERS: INSIDE://kafka:9093,OUTSIDE://localhost:9092
      KAFKA_LISTENER_SECURITY_PROTOCOL_MAP: INSIDE:PLAINTEXT,OUTSIDE:PLAINTEXT
      KAFKA_INTER_BROKER_LISTENER_NAME: INSIDE
      KAFKA_AUTO_CREATE_TOPICS_ENABLE: 'false'  # 生产环境应关闭自动创建
      KAFKA_DELETE_TOPIC_ENABLE: 'true'
      KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR: 1
      KAFKA_LOG_RETENTION_HOURS: 168  # 日志保留7天
      KAFKA_LOG_SEGMENT_BYTES: 1073741824  # 1GB的日志分段大小
    volumes:
      - ./data/kafka/data:/var/lib/kafka/data
    networks:
      - kafka-network

networks:
  kafka-network:
    driver: bridge

关键配置说明：

advertised.listeners 必须正确配置，否则客户端无法连接
日志保留策略应根据业务需求调整，金融类业务可能需要更长的保留期
生产环境建议关闭自动创建 topic 功能，通过管控平台统一管理

4.2 操作验证与问题排查

基础验证流程：

bash复制# 创建测试topic
docker exec -it kafka \
  kafka-topics --create \
  --topic test-topic \
  --bootstrap-server kafka:9093 \
  --partitions 3 \
  --replication-factor 1

# 生产消息
docker exec -it kafka \
  kafka-console-producer \
  --broker-list kafka:9093 \
  --topic test-topic

# 消费消息（从最早开始）
docker exec -it kafka \
  kafka-console-consumer \
  --bootstrap-server kafka:9093 \
  --topic test-topic \
  --from-beginning

常见启动问题排查：

端口冲突错误：

bash复制ERROR [KafkaServer id=1] Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer)

解决方案：检查 9092 端口是否被占用，或修改 compose 文件中的端口映射

ZooKeeper 连接超时：

bash复制[2023-07-20 15:30:45,365] INFO [ZooKeeperClient Kafka server] Waiting until connected. (kafka.zookeeper.ZooKeeperClient)

解决方案：确保 ZooKeeper 容器先启动完成，检查网络配置

磁盘空间不足：
```
bash复制java.io.IOException: No space left on device
```
解决方案：清理旧数据或增加磁盘配额

5. 生产级集群部署

5.1 三节点集群配置

yaml复制version: '3.8'

services:
  zookeeper-1:
    image: confluentinc/cp-zookeeper:7.5.0
    container_name: zookeeper-1
    hostname: zookeeper-1
    ports:
      - "2181:2181"
    environment:
      ZOOKEEPER_SERVER_ID: 1
      ZOOKEEPER_CLIENT_PORT: 2181
      ZOOKEEPER_SERVERS: "zookeeper-1:2888:3888;zookeeper-2:2888:3888;zookeeper-3:2888:3888"
    volumes:
      - ./cluster/zk1/data:/var/lib/zookeeper/data
    networks:
      - kafka-cluster-network

  zookeeper-2:
    image: confluentinc/cp-zookeeper:7.5.0
    container_name: zookeeper-2
    hostname: zookeeper-2
    ports:
      - "2182:2181"
    environment:
      ZOOKEEPER_SERVER_ID: 2
      ZOOKEEPER_CLIENT_PORT: 2181
      ZOOKEEPER_SERVERS: "zookeeper-1:2888:3888;zookeeper-2:2888:3888;zookeeper-3:2888:3888"
    volumes:
      - ./cluster/zk2/data:/var/lib/zookeeper/data
    networks:
      - kafka-cluster-network

  zookeeper-3:
    image: confluentinc/cp-zookeeper:7.5.0
    container_name: zookeeper-3
    hostname: zookeeper-3
    ports:
      - "2183:2181"
    environment:
      ZOOKEEPER_SERVER_ID: 3
      ZOOKEEPER_CLIENT_PORT: 2181
      ZOOKEEPER_SERVERS: "zookeeper-1:2888:3888;zookeeper-2:2888:3888;zookeeper-3:2888:3888"
    volumes:
      - ./cluster/zk3/data:/var/lib/zookeeper/data
    networks:
      - kafka-cluster-network

  kafka-1:
    image: confluentinc/cp-kafka:7.5.0
    container_name: kafka-1
    hostname: kafka-1
    ports:
      - "9092:9092"
    environment:
      KAFKA_BROKER_ID: 1
      KAFKA_ZOOKEEPER_CONNECT: "zookeeper-1:2181,zookeeper-2:2181,zookeeper-3:2181"
      KAFKA_ADVERTISED_LISTENERS: "PLAINTEXT://kafka-1:9092"
      KAFKA_DEFAULT_REPLICATION_FACTOR: 3
      KAFKA_MIN_INSYNC_REPLICAS: 2
    volumes:
      - ./cluster/kafka1/data:/var/lib/kafka/data
    networks:
      - kafka-cluster-network

  kafka-2:
    image: confluentinc/cp-kafka:7.5.0
    container_name: kafka-2
    hostname: kafka-2
    ports:
      - "9093:9092"
    environment:
      KAFKA_BROKER_ID: 2
      KAFKA_ZOOKEEPER_CONNECT: "zookeeper-1:2181,zookeeper-2:2181,zookeeper-3:2181"
      KAFKA_ADVERTISED_LISTENERS: "PLAINTEXT://kafka-2:9092"
    volumes:
      - ./cluster/kafka2/data:/var/lib/kafka/data
    networks:
      - kafka-cluster-network

  kafka-3:
    image: confluentinc/cp-kafka:7.5.0
    container_name: kafka-3
    hostname: kafka-3
    ports:
      - "9094:9092"
    environment:
      KAFKA_BROKER_ID: 3
      KAFKA_ZOOKEEPER_CONNECT: "zookeeper-1:2181,zookeeper-2:2181,zookeeper-3:2181"
      KAFKA_ADVERTISED_LISTENERS: "PLAINTEXT://kafka-3:9092"
    volumes:
      - ./cluster/kafka3/data:/var/lib/kafka/data
    networks:
      - kafka-cluster-network

networks:
  kafka-cluster-network:
    driver: bridge

5.2 集群管理命令

查看集群状态：

bash复制# 查看Broker元数据
docker exec -it kafka-1 kafka-broker-api-versions --bootstrap-server kafka-1:9092

# 查看Topic分布
docker exec -it kafka-1 kafka-topics --describe --bootstrap-server kafka-1:9092

# 查看消费者组
docker exec -it kafka-1 kafka-consumer-groups --list --bootstrap-server kafka-1:9092

集群扩容步骤：

在 compose 文件中添加新的 Broker 配置
确保 Broker ID 唯一
启动新容器：docker-compose up -d kafka-4
重新分配分区：kafka-reassign-partitions.sh

6. 性能优化实战

6.1 JVM 参数调优

yaml复制environment:
  KAFKA_HEAP_OPTS: "-Xmx6G -Xms6G"  # 堆内存大小
  KAFKA_JVM_PERFORMANCE_OPTS: "
    -server
    -XX:+UseG1GC
    -XX:MaxGCPauseMillis=20
    -XX:InitiatingHeapOccupancyPercent=35
    -XX:G1HeapRegionSize=16M
    -XX:MetaspaceSize=256m
    -XX:+DisableExplicitGC
    -XX:+ParallelRefProcEnabled
    -XX:+HeapDumpOnOutOfMemoryError
    -XX:HeapDumpPath=/var/log/kafka/heap-dump.hprof"

关键参数说明：

G1 垃圾回收器适合大内存场景
MaxGCPauseMillis 控制最大停顿时间
建议监控 GC 日志调整参数：-Xloggc:/var/log/kafka/gc.log -XX:+PrintGCDetails

6.2 存储优化策略

日志段配置：

yaml复制KAFKA_LOG_SEGMENT_BYTES: 1073741824  # 1GB/段
KAFKA_LOG_RETENTION_HOURS: 168       # 保留7天
KAFKA_LOG_CLEANUP_POLICY: "delete"   # 清理策略
KAFKA_NUM_RECOVERY_THREADS_PER_DATA_DIR: 4  # 恢复线程数

挂载高性能存储：

yaml复制volumes:
  - /mnt/nvme/kafka_data:/var/lib/kafka/data

生产建议：使用独立磁盘挂载，避免与其他服务IO竞争。我曾遇到因共享存储导致的性能下降50%的情况，分离后吞吐量恢复。

6.3 网络优化方案

yaml复制environment:
  KAFKA_SOCKET_SEND_BUFFER_BYTES: 1024000  # 发送缓冲区1MB
  KAFKA_SOCKET_RECEIVE_BUFFER_BYTES: 1024000 # 接收缓冲区1MB
  KAFKA_NUM_NETWORK_THREADS: 8
  KAFKA_NUM_IO_THREADS: 16
  KAFKA_QUEUED_MAX_REQUESTS: 1000

7. 监控与运维体系

7.1 Prometheus + Grafana 监控

docker-compose 配置：

yaml复制services:
  kafka-exporter:
    image: danielqsj/kafka-exporter:latest
    command:
      - '--kafka.server=kafka:9093'
      - '--kafka.version=3.0.0'
      - '--web.telemetry-path=/metrics'
    ports:
      - "9308:9308"

  prometheus:
    image: prom/prometheus:latest
    volumes:
      - ./prometheus/prometheus.yml:/etc/prometheus/prometheus.yml
    ports:
      - "9090:9090"

  grafana:
    image: grafana/grafana:latest
    ports:
      - "3000:3000"
    volumes:
      - ./grafana/dashboards:/etc/grafana/provisioning/dashboards

关键监控指标：

消息堆积量：kafka_consumer_lag
请求处理时间：kafka_network_requestmetrics_totaltimems
磁盘使用率：kafka_log_log_flush_time_ms
分区状态：kafka_topic_partition_in_sync_replica

7.2 日志收集方案

ELK 集成配置：

yaml复制services:
  filebeat:
    image: docker.elastic.co/beats/filebeat:8.7.0
    volumes:
      - /var/lib/docker/containers:/var/lib/docker/containers:ro
      - ./filebeat.yml:/usr/share/filebeat/filebeat.yml
    depends_on:
      - elasticsearch
      - kibana

  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:8.7.0
    environment:
      - discovery.type=single-node
    ports:
      - "9200:9200"

  kibana:
    image: docker.elastic.co/kibana/kibana:8.7.0
    ports:
      - "5601:5601"

8. 生产环境安全加固

8.1 SASL/SCRAM 认证配置

yaml复制environment:
  KAFKA_LISTENER_SECURITY_PROTOCOL_MAP: SASL_PLAINTEXT:SASL_PLAINTEXT
  KAFKA_SASL_ENABLED_MECHANISMS: SCRAM-SHA-512
  KAFKA_SASL_MECHANISM_INTER_BROKER_PROTOCOL: SCRAM-SHA-512
  KAFKA_OPTS: "-Djava.security.auth.login.config=/etc/kafka/kafka_server_jaas.conf"

创建用户：

bash复制# 进入ZooKeeper容器
docker exec -it zookeeper bash

# 创建SCRAM凭证
kafka-configs --zookeeper localhost:2181 \
  --alter --add-config 'SCRAM-SHA-512=[password=admin123]' \
  --entity-type users --entity-name admin

8.2 SSL 加密通信

生成证书：

bash复制# 创建CA证书
openssl req -new -x509 -keyout ca-key -out ca-cert -days 365

# 创建Broker证书
keytool -keystore kafka.server.keystore.jks -alias localhost -validity 365 -genkey
keytool -keystore kafka.server.keystore.jks -alias localhost -certreq -file cert-file
openssl x509 -req -CA ca-cert -CAkey ca-key -in cert-file -out cert-signed -days 365 -CAcreateserial
keytool -keystore kafka.server.keystore.jks -alias CARoot -import -file ca-cert
keytool -keystore kafka.server.keystore.jks -alias localhost -import -file cert-signed

Docker 配置：

yaml复制volumes:
  - ./ssl:/etc/kafka/secrets

environment:
  KAFKA_SSL_KEYSTORE_LOCATION: /etc/kafka/secrets/kafka.server.keystore.jks
  KAFKA_SSL_KEYSTORE_PASSWORD: keystore_password
  KAFKA_SSL_KEY_PASSWORD: key_password
  KAFKA_SSL_TRUSTSTORE_LOCATION: /etc/kafka/secrets/kafka.server.truststore.jks
  KAFKA_SSL_TRUSTSTORE_PASSWORD: truststore_password

9. 灾备与数据迁移

9.1 跨集群镜像方案

使用 MirrorMaker 2.0 实现集群间数据同步：

yaml复制services:
  mirror-maker:
    image: confluentinc/cp-kafka:7.5.0
    command: >
      bash -c "
      echo 'clusters=primary,secondary' > /tmp/mm2.properties
      echo 'primary.bootstrap.servers=kafka-1:9092' >> /tmp/mm2.properties
      echo 'secondary.bootstrap.servers=backup-kafka:9092' >> /tmp/mm2.properties
      /etc/confluent/docker/run kafka-mirror-maker
      "

9.2 数据备份策略

增量备份脚本：

bash复制#!/bin/bash
DATE=$(date +%Y%m%d)
BACKUP_DIR="/backup/kafka/$DATE"

# 创建备份目录
mkdir -p $BACKUP_DIR

# 备份ZooKeeper数据
docker exec zookeeper tar czf - /var/lib/zookeeper/data > $BACKUP_DIR/zk_data.tgz

# 备份Kafka数据（只备份新增的日志段）
find /data/kafka -type f -mtime -1 -exec tar czf $BACKUP_DIR/kafka_incremental.tgz {} +

# 上传到云存储
aws s3 cp $BACKUP_DIR s3://kafka-backup-bucket/ --recursive

10. 典型问题排查指南

10.1 消息堆积问题

排查步骤：

检查消费者 lag：

bash复制kafka-consumer-groups --bootstrap-server kafka:9092 \
  --describe --group my-group

分析消费者线程状态：

bash复制jstack <consumer_pid> | grep -A10 "kafka-coordinator-heartbeat-thread"

检查网络延迟：

bash复制docker exec kafka ping consumer-host

优化方案：

增加消费者实例数
调整 max.poll.records 减少单次拉取量
优化消费者处理逻辑

10.2 领导者不平衡

检测命令：

bash复制kafka-leader-election --bootstrap-server kafka:9092 \
  --election-type preferred \
  --topic my-topic \
  --partition 0

再平衡操作：

bash复制kafka-reassign-partitions --bootstrap-server kafka:9092 \
  --reassignment-json-file reassign.json \
  --execute

10.3 磁盘IO瓶颈

诊断方法：

bash复制# 查看磁盘IO状态
docker exec kafka iostat -x 1

# 检查Kafka日志刷盘延迟
grep "Flushing data log" /var/log/kafka/server.log

优化建议：

使用 RAID 0 条带化多块磁盘
调整 log.flush.interval.messages 和 log.flush.interval.ms
升级到 NVMe 固态硬盘

11. 版本升级策略

11.1 滚动升级步骤

准备阶段：
- 备份配置和数据
- 在测试环境验证新版本
- 准备回滚方案

执行升级：

bash复制# 逐个停止Broker
docker stop kafka-1

# 更新镜像版本
docker-compose pull

# 重启服务
docker-compose up -d kafka-1

# 等待副本同步完成
kafka-topics --describe --under-replicated-partitions

验证阶段：
- 检查所有 topic 的 ISR 列表
- 验证生产消费功能
- 监控系统指标

11.2 兼容性检查

协议版本验证：

bash复制kafka-broker-api-versions --bootstrap-server kafka:9092 \
  --command-config admin.properties

客户端兼容性矩阵：

客户端版本	2.8 Broker	3.0 Broker	3.5 Broker
2.8	✓	✓	✓
3.0	✓	✓	✓
3.5	✓	✓	✓

12. 性能基准测试

12.1 测试工具使用

生产者性能测试：

bash复制kafka-producer-perf-test \
  --topic benchmark \
  --num-records 1000000 \
  --record-size 1024 \
  --throughput -1 \
  --producer-props \
    bootstrap.servers=kafka:9092 \
    acks=all \
    batch.size=16384

消费者性能测试：

bash复制kafka-consumer-perf-test \
  --topic benchmark \
  --messages 1000000 \
  --broker-list kafka:9092 \
  --group benchmark-group

12.2 性能指标解读

典型性能指标：

指标	单节点性能	3节点集群
生产者吞吐量(1KB消息)	50MB/s	150MB/s
延迟(p99)	5ms	3ms
消费者吞吐量	60MB/s	180MB/s

优化对比数据：

配置项	优化前	优化后	提升幅度
JVM堆内存	2GB	6GB	+35%
日志段大小	128MB	1GB	+50%
IO线程数	8	16	+25%

13. 与云原生生态集成

13.1 Kubernetes 部署方案

Helm Chart 配置示例：

yaml复制# values.yaml
replicaCount: 3

configurationOverrides:
  auto.create.topics.enable: "false"
  log.retention.hours: "168"
  offsets.topic.replication.factor: "3"

resources:
  requests:
    memory: "8Gi"
    cpu: "2"
  limits:
    memory: "16Gi"
    cpu: "4"

persistence:
  enabled: true
  size: "100Gi"
  storageClass: "ssd"

部署命令：

bash复制helm install kafka \
  --set replicaCount=5 \
  --set persistence.storageClass=gp2 \
  bitnami/kafka

13.2 Service Mesh 集成

Istio 流量管理配置：

yaml复制apiVersion: networking.istio.io/v1alpha3
kind: Gateway
metadata:
  name: kafka-gateway
spec:
  selector:
    istio: ingressgateway
  servers:
  - port:
      number: 9092
      name: tcp-kafka
      protocol: TCP
    hosts:
    - "*"
---
apiVersion: networking.istio.io/v1alpha3
kind: VirtualService
metadata:
  name: kafka-vs
spec:
  hosts:
  - "kafka.example.com"
  gateways:
  - kafka-gateway
  tcp:
  - match:
    - port: 9092
    route:
    - destination:
        host: kafka-headless
        port:
          number: 9092

14. 客户端开发最佳实践

14.1 生产者配置建议

java复制Properties props = new Properties();
props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "kafka:9092");
props.put(ProducerConfig.ACKS_CONFIG, "all"); // 确保消息持久化
props.put(ProducerConfig.RETRIES_CONFIG, 3); // 重试次数
props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384); // 16KB批处理
props.put(ProducerConfig.LINGER_MS_CONFIG, 5); // 等待时间
props.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 33554432); // 32MB缓冲区
props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class);

// 启用压缩（可选）
props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "lz4");

// 幂等生产者（防止重复）
props.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, "true");

14.2 消费者配置优化

java复制Properties props = new Properties();
props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "kafka:9092");
props.put(ConsumerConfig.GROUP_ID_CONFIG, "my-group");
props.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");
props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "false"); // 手动提交
props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG, 500); // 单次拉取最大记录数
props.put(ConsumerConfig.MAX_POLL_INTERVAL_MS_CONFIG, 300000); // 5分钟超时
props.put(ConsumerConfig.SESSION_TIMEOUT_MS_CONFIG, 10000); // 会话超时
props.put(ConsumerConfig.HEARTBEAT_INTERVAL_MS_CONFIG, 3000); // 心跳间隔

// 分区分配策略
props.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, 
  "org.apache.kafka.clients.consumer.RoundRobinAssignor");

// 反序列化配置
props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);

15. 架构演进与扩展

15.1 多机房部署方案

跨机房同步架构：

code复制[机房A]                       [机房B]
Kafka Cluster A ← MirrorMaker → Kafka Cluster B
       ↑                             ↑
       |                             |
  Producers A                    Producers B

配置要点：

使用 Rack Awareness 确保副本分布在不同的机架
```
yaml复制KAFKA_BROKER_RACK: "rack-1a"
```

调整副本因子和最小ISR

yaml复制KAFKA_DEFAULT_REPLICATION_FACTOR: 3
KAFKA_MIN_INSYNC_REPLICAS: 2

配置跨机房网络延迟容忍

yaml复制KAFKA_REPLICA_SOCKET_TIMEOUT_MS: 60000
KAFKA_REPLICA_FETCH_WAIT_MAX_MS: 500

15.2 分层存储架构

冷热数据分离方案：

配置分层存储策略

yaml复制KAFKA_LOG_STORAGE_TIER_ENABLE: "true"
KAFKA_LOG_STORAGE_TIER_LOCAL_HOTSET_BYTES: "53687091200" # 50GB热数据

设置对象存储集成

yaml复制KAFKA_REMOTE_LOG_STORAGE_ENABLE: "true"
KAFKA_REMOTE_LOG_STORAGE_MANAGER_CLASS_NAME: "org.apache.kafka.server.log.remote.storage.NoOpRemoteLogStorageManager"

监控分层存储指标

bash复制kafka-configs --describe --entity-type broker \
  --entity-name 1 --include-synonyms \
  --bootstrap-server kafka:9092

16. 成本优化策略

16.1 存储成本控制

数据生命周期管理：

yaml复制# 基于时间的保留策略
KAFKA_LOG_RETENTION_HOURS: 168

# 基于大小的保留策略
KAFKA_LOG_RETENTION_BYTES: 107374182400 # 100GB

# 压缩策略
KAFKA_LOG_CLEANUP_POLICY: "compact,delete"
KAFKA_MIN_CLEANABLE_DIRTY_RATIO: 0.5

分层存储配置：

yaml复制# 启用分层存储
KAFKA_LOG_STORAGE_TIER_ENABLE: "true"

# 本地保留的热数据大小
KAFKA_LOG_STORAGE_TIER_LOCAL_HOTSET_BYTES: "21474836480" # 20GB

# 远程存储配置
K