ClickHouse 实战（从入门到精通）

梦留幻溪

1. ClickHouse入门：从零开始搭建分析平台

第一次接触ClickHouse时，我被它的性能震撼到了。当时我们需要分析上亿条用户行为日志，传统数据库查询需要几分钟，而ClickHouse只需几秒钟。这种列式数据库确实是为分析场景而生。

ClickHouse最擅长的就是处理海量数据的实时分析。想象一下，你有一个电商网站，每天产生数百万条订单记录。使用传统数据库，要统计"过去30天销量TOP10的商品"可能需要等待很久。而ClickHouse可以在秒级返回结果，这让实时决策成为可能。

安装ClickHouse非常简单，以Ubuntu系统为例：

bash复制# 添加官方仓库
sudo apt-get install -y apt-transport-https ca-certificates dirmngr
sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv E0C56BD4

# 安装服务端和客户端
sudo apt-get update
sudo apt-get install -y clickhouse-server clickhouse-client

# 启动服务
sudo service clickhouse-server start

安装完成后，你可以立即用客户端连接：

bash复制clickhouse-client

在客户端里，我们可以创建第一个测试表：

sql复制CREATE TABLE test.tutorial
(
    id UInt32,
    name String,
    event_time DateTime
)
ENGINE = MergeTree()
ORDER BY (event_time, id);

这个简单的例子展示了ClickHouse的基本能力。MergeTree是ClickHouse最常用的表引擎，特别适合时间序列数据。ORDER BY子句定义了主键索引，这对查询性能至关重要。

2. 实战电商数据分析：表设计与数据导入

让我们通过一个电商订单分析的实战案例，深入理解ClickHouse的应用。假设我们需要分析以下指标：

每日/每周/每月销售额
热销商品排行
用户购买行为分析

首先设计订单表结构：

sql复制CREATE TABLE ecommerce.orders
(
    order_id UInt64,
    user_id UInt64,
    product_id UInt64,
    quantity UInt32,
    price Decimal(10,2),
    order_time DateTime,
    payment_method String,
    city String,
    province String
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(order_time)
ORDER BY (order_time, city, product_id);

这里有几个关键设计点：

使用MergeTree引擎，适合分析场景
按月份分区(partition)，便于管理大数据量
排序键(order_time, city, product_id)优化了常见查询

数据导入有多种方式，最常用的是CSV导入：

bash复制clickhouse-client --query "INSERT INTO ecommerce.orders FORMAT CSV" < orders.csv

对于持续数据流，可以使用Kafka引擎：

sql复制CREATE TABLE ecommerce.orders_kafka
(
    order_id UInt64,
    user_id UInt64,
    -- 其他字段同上
)
ENGINE = Kafka()
SETTINGS
    kafka_broker_list = 'localhost:9092',
    kafka_topic_list = 'orders',
    kafka_group_name = 'clickhouse_consumer',
    kafka_format = 'JSONEachRow';

-- 创建物化视图将数据写入目标表
CREATE MATERIALIZED VIEW ecommerce.orders_mv TO ecommerce.orders
AS SELECT * FROM ecommerce.orders_kafka;

3. 高效查询与聚合分析

有了数据后，我们来看看ClickHouse强大的分析能力。首先是基本的销售统计：

sql复制-- 日销售额统计
SELECT
    toDate(order_time) AS day,
    sum(quantity * price) AS daily_sales
FROM ecommerce.orders
GROUP BY day
ORDER BY day DESC
LIMIT 30;

-- 热销商品TOP10
SELECT
    product_id,
    sum(quantity) AS total_quantity,
    sum(quantity * price) AS total_sales
FROM ecommerce.orders
GROUP BY product_id
ORDER BY total_sales DESC
LIMIT 10;

ClickHouse的聚合性能非常出色，得益于它的列式存储和向量化执行引擎。即使处理上亿条数据，这些查询也能快速返回结果。

对于更复杂的分析，比如用户购买行为漏斗：

sql复制WITH user_actions AS (
    SELECT
        user_id,
        countIf(event_type = 'view') AS views,
        countIf(event_type = 'cart') AS carts,
        countIf(event_type = 'purchase') AS purchases
    FROM ecommerce.user_events
    GROUP BY user_id
)
SELECT
    sum(views) AS total_views,
    sum(carts) AS total_carts,
    sum(purchases) AS total_purchases,
    sum(carts) / sum(views) AS view_to_cart_rate,
    sum(purchases) / sum(carts) AS cart_to_purchase_rate
FROM user_actions;

ClickHouse还支持高级分析函数：

sql复制-- 计算7日移动平均销售额
SELECT
    day,
    sales,
    avg(sales) OVER (ORDER BY day ROWS BETWEEN 6 PRECEDING AND CURRENT ROW) AS moving_avg_7day
FROM (
    SELECT
        toDate(order_time) AS day,
        sum(quantity * price) AS sales
    FROM ecommerce.orders
    GROUP BY day
);

4. 性能优化实战技巧

经过几个月的ClickHouse使用，我总结了一些性能优化经验：

1. 数据分区策略优化

sql复制-- 按城市和月份组合分区
PARTITION BY (city, toYYYYMM(order_time))

-- 按周分区更适合频繁查询最近数据
PARTITION BY toMonday(order_time)

2. 主键设计原则

将高频过滤条件放在前面
基数低的列(如性别)不适合做主键
时间戳通常是很好的主键首列

3. 物化视图预聚合

sql复制CREATE MATERIALIZED VIEW ecommerce.daily_sales_mv
ENGINE = SummingMergeTree()
PARTITION BY toYYYYMM(day)
ORDER BY (day, product_id)
AS SELECT
    toDate(order_time) AS day,
    product_id,
    sum(quantity) AS quantity,
    sum(quantity * price) AS sales
FROM ecommerce.orders
GROUP BY day, product_id;

4. 查询优化技巧

使用SAMPLE抽样快速估算

sql复制SELECT count() FROM ecommerce.orders SAMPLE 0.1

避免SELECT *，只查询需要的列
使用PREWHERE先过滤大量数据

5. 系统配置调优
在config.xml中调整这些参数：

xml复制<max_threads>16</max_threads>
<max_memory_usage>10000000000</max_memory_usage>
<use_uncompressed_cache>1</use_uncompressed_cache>

5. 集群部署与高可用方案

当单机性能不足时，ClickHouse的分布式能力就派上用场了。我们部署了一个6节点的集群：

配置文件示例（config.xml）：

xml复制<remote_servers>
    <ecommerce_cluster>
        <shard>
            <replica>
                <host>node1</host>
                <port>9000</port>
            </replica>
            <replica>
                <host>node2</host>
                <port>9000</port>
            </replica>
        </shard>
        <shard>
            <replica>
                <host>node3</host>
                <port>9000</port>
            </replica>
            <replica>
                <host>node4</host>
                <port>9000</port>
            </replica>
        </shard>
    </ecommerce_cluster>
</remote_servers>

创建分布式表：

sql复制CREATE TABLE ecommerce.orders_distributed AS ecommerce.orders
ENGINE = Distributed(ecommerce_cluster, ecommerce, orders, rand());

数据分片策略：

按用户ID哈希分片：user_id % shard_count
按时间范围分片：toYYYYMM(order_time) % shard_count

使用ReplicatedMergeTree确保数据高可用：

sql复制CREATE TABLE ecommerce.orders_replicated
(
    -- 字段同前
)
ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/orders', '{replica}')
PARTITION BY toYYYYMM(order_time)
ORDER BY (order_time, city, product_id);

在实际使用中，我们发现ZooKeeper的配置对集群稳定性很关键。建议至少部署3个ZooKeeper节点，并监控其健康状况。

6. 监控与运维最佳实践

稳定的ClickHouse运行离不开完善的监控。我们采用以下方案：

关键监控指标：

查询次数/QPS
内存使用量
磁盘空间
后台合并操作状态
复制延迟

内置系统表查询：

sql复制-- 查看正在运行的查询
SELECT * FROM system.processes;

-- 查询历史记录
SELECT * FROM system.query_log 
WHERE event_time > now() - 3600
ORDER BY query_duration_ms DESC
LIMIT 10;

-- 表空间使用情况
SELECT * FROM system.parts
WHERE table = 'orders';

Prometheus监控配置：

yaml复制scrape_configs:
  - job_name: 'clickhouse'
    static_configs:
      - targets: ['clickhouse-server:9363']

日常维护命令：

sql复制-- 强制合并分区
OPTIMIZE TABLE ecommerce.orders FINAL;

-- 删除旧数据
ALTER TABLE ecommerce.orders DROP PARTITION '202301';

-- 查看表结构
DESCRIBE TABLE ecommerce.orders;

备份策略：

使用clickhouse-backup工具定期全量备份
重要数据配置双副本
跨机房部署灾备集群

7. 高级特性与实战案例

ClickHouse还有一些强大的高级特性：

1. 窗口函数分析用户行为

sql复制SELECT
    user_id,
    order_time,
    runningSum(total) OVER (PARTITION BY user_id ORDER BY order_time) AS cumulative_spend
FROM (
    SELECT 
        user_id,
        toStartOfHour(order_time) AS order_time,
        sum(price * quantity) AS total
    FROM ecommerce.orders
    GROUP BY user_id, order_time
);

2. 用户留存分析

sql复制WITH 
first_purchases AS (
    SELECT 
        user_id,
        min(toDate(order_time)) AS first_date
    FROM ecommerce.orders
    GROUP BY user_id
),
daily_users AS (
    SELECT
        toDate(order_time) AS day,
        user_id
    FROM ecommerce.orders
    GROUP BY day, user_id
)
SELECT
    first_date,
    day - first_date AS day_diff,
    countDistinct(d.user_id) AS users
FROM first_purchases fp
JOIN daily_users d ON fp.user_id = d.user_id
GROUP BY first_date, day_diff
ORDER BY first_date, day_diff;

3. 地理位置分析

sql复制SELECT
    province,
    city,
    count() AS orders,
    sum(price * quantity) AS sales
FROM ecommerce.orders
GROUP BY 
    province,
    city
WITH CUBE;

4. 实时数据可视化集成

sql复制-- 创建物化视图供Grafana使用
CREATE MATERIALIZED VIEW ecommerce.sales_dashboard
ENGINE = AggregatingMergeTree()
ORDER BY (metric_date, metric_name)
AS SELECT
    toDate(order_time) AS metric_date,
    'daily_sales' AS metric_name,
    sumState(price * quantity) AS value
FROM ecommerce.orders
GROUP BY metric_date, metric_name;

在实际项目中，我们使用这套方案将数据分析延迟从小时级降低到秒级，大大提升了业务决策效率。特别是在大促期间，实时监控销售情况帮助我们快速调整营销策略。

已经到底了哦