Kubernetes离线部署DolphinScheduler与SeaTunnel实践

千纸鹤Amanda

1. 项目概述

在企业大数据平台建设中，任务调度与数据同步是两大核心需求。DolphinScheduler作为分布式可视化工作流调度系统，与SeaTunnel这个高性能数据集成工具的组合，能够很好地满足这两个需求。本文将详细记录在Kubernetes离线环境中部署这两个系统的完整过程，包括镜像处理、Helm安装、配置调整等关键环节。

2. 环境准备

2.1 基础环境要求

本次部署基于以下技术栈：

Kubernetes 1.23.15集群
Helm 3.16.2包管理工具
Harbor私有镜像仓库
企业内网环境（无互联网访问）

2.2 组件版本选择

从稳定性和兼容性考虑，我们选择：

DolphinScheduler 3.1.9（当前稳定版）
SeaTunnel 2.3.10（Helm仓库最新版）

注意：版本选择对后续部署至关重要，不同版本间的API和配置可能存在差异，务必保持一致性。

3. DolphinScheduler部署

3.1 源码获取与准备

首先获取DolphinScheduler的指定版本代码：

bash复制git clone https://github.com/apache/dolphinscheduler.git
cd dolphinscheduler
git checkout 3.1.9
cd deploy/kubernetes/dolphinscheduler/

3.2 Helm依赖处理

在离线环境中，我们需要先解决Helm chart的依赖问题：

bash复制helm repo add bitnami https://charts.bitnami.com/bitnami
helm dependency update .

如果遇到网络问题，可以采用以下替代方案：

在有网环境提前下载依赖
通过代理服务器完成同步
手动下载依赖chart并放置到charts目录

3.3 镜像处理策略

在离线环境中，所有容器镜像需要预先下载并推送到私有仓库。以下是详细步骤：

3.3.1 获取镜像列表

bash复制helm template . | grep "image:" | awk '{print $2}' | tr -d '"' | sort | uniq

输出结果将包含所有需要的镜像，如：

DolphinScheduler各组件镜像
PostgreSQL数据库镜像
ZooKeeper协调服务镜像
Busybox工具镜像

3.3.2 镜像下载与推送

在有网络的环境中下载所有镜像：

bash复制docker pull dolphinscheduler.docker.scarf.sh/apache/dolphinscheduler-master:3.1.9
docker pull dolphinscheduler.docker.scarf.sh/apache/dolphinscheduler-worker:3.1.9
# 其他镜像类似...

然后重新打标签并推送到私有仓库：

bash复制export MY_HARBOR="your.private.registry.com/your-project"
docker tag dolphinscheduler.docker.scarf.sh/apache/dolphinscheduler-master:3.1.9 $MY_HARBOR/dolphinscheduler-master:3.1.9
docker push $MY_HARBOR/dolphinscheduler-master:3.1.9
# 其他镜像类似...

3.3.3 配置文件修改

更新values.yaml中的镜像仓库配置：

bash复制sed -i "s|registry: \"dolphinscheduler.docker.scarf.sh/apache\"|registry: \"$MY_HARBOR\"|g" values.yaml

对于PostgreSQL和ZooKeeper等第三方组件，需要单独配置：

yaml复制postgresql:
  enabled: true
  image:
    registry: "your.private.registry.com"
    repository: "your-project/postgresql"
    tag: "11.11.0-debian-10-r71"

3.4 Helm安装与验证

执行安装命令：

bash复制helm install dolphinscheduler . -n bigdata

安装完成后，可以通过以下方式验证：

检查Pod状态：

bash复制kubectl get pods -n bigdata

端口转发访问Web UI：

bash复制kubectl port-forward --address 0.0.0.0 -n bigdata svc/dolphinscheduler-api 12345:12345

或者修改Service为NodePort类型：

bash复制kubectl patch svc dolphinscheduler-api -n bigdata -p '{"spec":{"type":"NodePort"}}'

默认登录凭证：

用户名：admin
密码：dolphinscheduler123

4. SeaTunnel部署

4.1 Helm包获取

bash复制export VERSION=2.3.10
mkdir seatunnel_helm && cd seatunnel_helm
helm pull oci://registry-1.docker.io/apache/seatunnel-helm --version ${VERSION}
tar -xvf seatunnel-helm-${VERSION}.tgz
cd seatunnel-helm

4.2 镜像处理

获取所需镜像：

bash复制helm template . | grep "image:" | awk '{print $2}' | tr -d '"' | sort | uniq

下载并推送镜像到私有仓库：

bash复制docker pull apache/seatunnel:2.3.10
docker tag apache/seatunnel:2.3.10 $MY_HARBOR/apache/seatunnel:2.3.10
docker push $MY_HARBOR/apache/seatunnel:2.3.10

更新values.yaml配置：

bash复制sed -i "s|registry: \"apache/seatunnel\"|registry: \"$MY_HARBOR/apache/seatunnel\"|g" values.yaml

4.3 安装与验证

执行安装：

bash复制helm install seatunnel . -n bigdata

验证部署：

检查Pod状态：

bash复制kubectl get pods -n bigdata -l app.kubernetes.io/name=seatunnel

暴露Web服务：

bash复制kubectl expose deployment seatunnel-master --type=NodePort --name=seatunnel-web --port=8080 --target-port=8080 -n bigdata

测试API接口：

bash复制curl http://<node-ip>:<node-port>/running-jobs

5. 集成验证

5.1 服务连通性测试

在DolphinScheduler的API容器中测试SeaTunnel连接：

bash复制kubectl exec -it dolphinscheduler-api-<pod-id> -n bigdata -- bash
curl -X GET http://seatunnel-web:8080/running-jobs

5.2 创建示例工作流

在DolphinScheduler中创建一个Shell类型的工作流节点，内容如下：

bash复制curl -X POST http://seatunnel-web:8080/submit-job \
-H "Content-Type: application/json" \
-d '{
    "env": {
        "job.mode": "batch"
    },
    "source": [
        {
            "plugin_name": "FakeSource",
            "plugin_output": "fake",
            "row.num": 100,
            "schema": {
                "fields": {
                    "name": "string",
                    "age": "int",
                    "card": "int"
                }
            }
        }
    ],
    "transform": [],
    "sink": [
        {
            "plugin_name": "Console",
            "plugin_input": ["fake"]
        }
    ]
}'

5.3 生产环境注意事项

在实际生产环境中，需要考虑以下问题：

任务状态监控：DolphinScheduler只能监控到任务提交状态，无法感知数据同步的实际结果。需要额外实现状态查询机制。
错误处理：增加重试机制和告警通知，确保任务失败能够及时发现和处理。
性能优化：根据数据量调整SeaTunnel的资源配置，避免资源不足或浪费。
安全加固：对API接口添加认证机制，防止未授权访问。

6. 常见问题与解决方案

6.1 镜像拉取失败

现象：Pod处于ImagePullBackOff状态

解决方案：

确认镜像已正确推送到私有仓库
检查values.yaml中的镜像配置是否正确
确保Kubernetes节点有权限访问私有仓库

6.2 Helm依赖解析失败

现象：helm dependency update命令执行失败

解决方案：

检查网络连接
尝试更换Helm仓库镜像源
手动下载依赖chart并放置到charts目录

6.3 服务无法访问

现象：服务部署成功但无法通过浏览器访问

解决方案：

检查Service类型和端口映射
确认网络策略允许访问
查看Pod日志排查具体错误

6.4 资源不足

现象：Pod频繁重启或被OOMKill

解决方案：

调整values.yaml中的资源限制
增加Kubernetes节点资源
优化组件配置，减少资源消耗

7. 性能优化建议

7.1 DolphinScheduler优化

数据库调优：对PostgreSQL进行性能优化，包括连接池配置、索引优化等
组件分离：将API、Master、Worker等组件部署到不同节点，避免资源竞争
日志管理：配置日志轮转和清理策略，避免磁盘空间不足

7.2 SeaTunnel优化

并行度调整：根据数据量和集群规模调整任务并行度
内存配置：合理设置JVM内存参数，避免频繁GC
检查点配置：对长时间运行的任务配置检查点，避免失败时全量重跑

7.3 Kubernetes层面优化

节点亲和性：将相关Pod调度到同一节点或可用区，减少网络延迟
资源限制：为每个组件设置合理的requests和limits
存储优化：对需要持久化的数据使用高性能存储卷

8. 扩展与集成

8.1 与现有系统集成

认证集成：对接企业LDAP/AD实现统一认证
监控集成：将指标接入Prometheus+Grafana监控体系
日志集成：通过EFK收集和分析系统日志

8.2 功能扩展

自定义插件：开发SeaTunnel自定义插件满足特定数据源需求
工作流模板：在DolphinScheduler中创建常用工作流模板
审批流程：集成审批系统实现任务执行的管控

8.3 高可用方案

多副本部署：关键组件配置多个副本，避免单点故障
跨可用区部署：在多个可用区部署实例，提高容灾能力
定期备份：对元数据和重要配置进行定期备份

9. 维护与升级

9.1 日常维护

版本管理：记录每个环境的详细版本信息
变更管理：任何配置变更都要有记录和回滚方案
健康检查：定期验证系统各组件健康状况

9.2 升级策略

测试环境验证：先在测试环境验证新版本兼容性
滚动升级：采用滚动更新方式减少服务中断
数据备份：升级前备份关键数据和配置

9.3 故障处理流程

问题定位：通过日志、监控快速定位问题根源
影响评估：评估问题对业务的影响范围
恢复优先：优先恢复服务，再分析根本原因

10. 安全最佳实践

10.1 访问控制

最小权限原则：为每个用户分配最小必要权限
网络隔离：通过NetworkPolicy限制不必要的网络访问
API保护：对管理API添加认证和速率限制

10.2 数据安全

敏感信息加密：对密码等敏感信息使用Secret存储
传输加密：启用TLS加密组件间通信
存储加密：对持久化数据启用加密存储

10.3 审计与合规

操作审计：记录关键操作日志并长期保存
合规检查：定期检查配置是否符合安全标准
漏洞扫描：定期扫描镜像和依赖组件的安全漏洞

在实际部署过程中，我发现Kubernetes的资源配置对系统稳定性影响很大。特别是在资源有限的环境中，需要仔细调整每个组件的内存和CPU限制，避免因资源竞争导致性能下降或服务不可用。另外，SeaTunnel的任务提交接口虽然方便，但在生产环境中需要封装额外的状态检查和结果验证逻辑，才能真正实现可靠的自动化数据流程。