Hive SQL DDL与DML操作指南-代码聚汇网

Hive SQL DDL与DML操作指南

纪环

1. Hive SQL 完全指南：DDL与DML深度解析

在大数据领域，Hive作为Hadoop生态系统中的重要组件，为数据分析师和工程师提供了强大的SQL-like查询能力。本文将深入探讨Hive SQL的两大核心组成部分：数据定义语言(DDL)和数据操作语言(DML)，帮助读者全面掌握Hive的数据管理能力。

1.1 Hive SQL语言分类概览

Hive SQL语言主要分为三类：数据定义语言(DDL)、数据操作语言(DML)和数据查询语言(DQL)。理解这三者的区别对于高效使用Hive至关重要。

1.1.1 SQL语言分类

Hive SQL语言分类如下：

DDL(数据定义语言)：用于创建、修改和删除数据库对象
DML(数据操作语言)：用于操作表中的数据
DQL(数据查询语言)：主要用于数据查询

1.1.2 主要区别

特性	DDL	DML
全称	Data Definition Language	Data Manipulation Language
作用	定义和管理数据库对象	操作表中的数据
是否修改数据	否	是
是否修改结构	是	否
事务性	通常自动提交	支持事务
回滚	不可回滚	可回滚

2. DDL（数据定义语言）详解

DDL是Hive中用于定义和管理数据库对象的语言，包括数据库、表、视图、索引等的创建、修改和删除操作。

2.1 数据库操作

2.1.1 创建数据库

sql复制-- 基础创建
CREATE DATABASE IF NOT EXISTS mydb;

-- 指定位置和注释
CREATE DATABASE IF NOT EXISTS mydb
COMMENT 'This is my database'
LOCATION '/user/hive/warehouse/mydb.db'
WITH DBPROPERTIES ('creator'='zhangsan', 'date'='2024-01-01');

-- 创建时指定字符集
CREATE DATABASE mydb 
CHARACTER SET 'latin1' 
COLLATE 'latin1_bin';

在实际项目中，建议为每个业务线创建独立的数据库，并使用一致的命名规范。例如，电商系统可以创建order_db、user_db、product_db等数据库。

2.1.2 查看和切换数据库

sql复制-- 查看所有数据库
SHOW DATABASES;
SHOW DATABASES LIKE 'my*';

-- 查看数据库详细信息
DESCRIBE DATABASE mydb;
DESCRIBE DATABASE EXTENDED mydb;  -- 显示更多属性

-- 切换当前数据库
USE mydb;

-- 查看当前数据库
SELECT current_database();

提示：在生产环境中，建议使用DESCRIBE DATABASE EXTENDED查看数据库的完整属性，特别是位置信息，这对于数据管理和迁移非常重要。

2.1.3 修改数据库

sql复制-- 修改数据库属性
ALTER DATABASE mydb 
SET DBPROPERTIES ('edited-by'='lisi');

-- 修改所有者
ALTER DATABASE mydb 
SET OWNER USER 'lisi';

-- 修改位置（仅限托管数据库）
ALTER DATABASE mydb 
SET LOCATION '/new/path/to/database';

数据库修改操作需要谨慎执行，特别是修改位置的操作，可能会导致已有表无法访问。

2.1.4 删除数据库

sql复制-- 删除空数据库
DROP DATABASE IF EXISTS mydb;

-- 级联删除（删除数据库及其所有表）
DROP DATABASE IF EXISTS mydb CASCADE;

-- 限制删除（默认，数据库非空时拒绝删除）
DROP DATABASE IF EXISTS mydb RESTRICT;

警告：DROP DATABASE CASCADE会删除数据库中的所有表和数据，操作不可逆，执行前务必确认。

2.2 表操作

表是Hive中存储数据的基本单位，Hive支持多种表类型，包括内部表、外部表、分区表、分桶表等。

2.2.1 创建内部表（托管表）

sql复制-- 创建内部表
CREATE TABLE IF NOT EXISTS employees (
    emp_id INT COMMENT 'Employee ID',
    emp_name STRING COMMENT 'Employee Name',
    emp_salary DECIMAL(10,2) COMMENT 'Monthly Salary',
    hire_date DATE COMMENT 'Hire Date',
    department STRING COMMENT 'Department',
    is_active BOOLEAN COMMENT 'Active Status'
)
COMMENT 'Employee Information Table'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
TBLPROPERTIES ('comment'='Main employee table', 'creator'='admin');

-- 使用LIKE创建相同结构的表
CREATE TABLE employees_copy LIKE employees;

内部表由Hive完全管理，删除表时会同时删除表中的数据。适用于临时数据或中间结果存储。

2.2.2 创建外部表

sql复制-- 创建外部表（数据存储在指定位置）
CREATE EXTERNAL TABLE IF NOT EXISTS external_employees (
    emp_id INT,
    emp_name STRING,
    emp_salary DECIMAL(10,2)
)
COMMENT 'External Employee Table'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION '/data/external/employees'
TBLPROPERTIES ('external.table.purge'='true');  -- 删除表时删除数据

外部表与内部表的主要区别：

特性	内部表	外部表
数据管理	Hive管理	用户管理
数据存储	`/user/hive/warehouse/`	指定位置
删除表	删除元数据和数据	只删除元数据
适用场景	临时表、中间表	原始数据、共享数据

2.2.3 分区表

sql复制-- 创建分区表
CREATE TABLE IF NOT EXISTS partitioned_employees (
    emp_id INT,
    emp_name STRING,
    emp_salary DECIMAL(10,2),
    hire_date DATE
)
PARTITIONED BY (department STRING, hire_year INT)  -- 分区字段
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS PARQUET;  -- 推荐使用列式存储

-- 添加分区
ALTER TABLE partitioned_employees 
ADD PARTITION (department='IT', hire_year=2024)
LOCATION '/user/hive/warehouse/mydb.db/partitioned_employees/dept=IT/year=2024';

-- 动态分区插入
SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;

INSERT INTO TABLE partitioned_employees 
PARTITION (department, hire_year)
SELECT emp_id, emp_name, emp_salary, hire_date, department, YEAR(hire_date)
FROM staging_employees;

分区表可以显著提高查询性能，特别是对于大型数据集。合理设计分区策略（如按日期、地区等）是优化Hive性能的关键。

2.2.4 分桶表

sql复制-- 创建分桶表
CREATE TABLE IF NOT EXISTS bucketed_employees (
    emp_id INT,
    emp_name STRING,
    emp_salary DECIMAL(10,2),
    department STRING
)
CLUSTERED BY (emp_id) INTO 16 BUCKETS  -- 按emp_id分16个桶
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS ORC
TBLPROPERTIES ('transactional'='true');  -- 支持ACID

-- 设置分桶相关参数
SET hive.enforce.bucketing = true;
SET hive.enforce.sorting = true;

分桶表通过哈希算法将数据均匀分布到多个文件中，适用于数据倾斜严重或需要高效join操作的场景。

2.2.5 查看表信息

sql复制-- 查看所有表
SHOW TABLES;
SHOW TABLES IN mydb LIKE 'emp*';

-- 查看表结构
DESCRIBE employees;
DESC FORMATTED employees;  -- 详细表信息
DESC EXTENDED employees;    -- 扩展信息

-- 查看分区
SHOW PARTITIONS employees;
SHOW PARTITIONS employees PARTITION(department='IT');

-- 查看表属性
SHOW TBLPROPERTIES employees;
SHOW TBLPROPERTIES employees ('comment');

DESC FORMATTED命令是排查表问题的利器，可以查看表的存储格式、位置、创建时间等详细信息。

2.2.6 修改表

sql复制-- 重命名表
ALTER TABLE employees RENAME TO staff;

-- 添加列
ALTER TABLE employees ADD COLUMNS (
    email STRING COMMENT 'Email address',
    phone STRING COMMENT 'Phone number'
);

-- 修改列
ALTER TABLE employees CHANGE COLUMN emp_name employee_name STRING 
COMMENT 'Full Name' AFTER emp_id;  -- 移动位置

-- 替换所有列
ALTER TABLE employees REPLACE COLUMNS (
    emp_id INT,
    full_name STRING,
    salary DECIMAL(10,2)
);

-- 修改表属性
ALTER TABLE employees SET TBLPROPERTIES (
    'comment' = 'Updated employee table',
    'auto.purge' = 'true'
);

表结构变更在生产环境中需要谨慎操作，特别是对大型表的修改可能会消耗大量资源。

2.2.7 删除表

sql复制-- 删除内部表
DROP TABLE IF EXISTS employees;
DROP TABLE IF EXISTS employees PURGE;  -- 直接删除，不进回收站

-- 删除外部表（只删除元数据）
DROP TABLE external_employees;

-- 清空表数据
TRUNCATE TABLE employees;  -- 只适用于内部表

注意：DROP TABLE操作在生产环境中应严格管控，建议先备份重要数据再执行删除操作。

2.3 视图操作

sql复制-- 创建视图
CREATE VIEW IF NOT EXISTS it_employees 
COMMENT 'IT Department Employees'
AS 
SELECT emp_id, emp_name, emp_salary 
FROM employees 
WHERE department = 'IT';

-- 创建物化视图（Hive 3.0+）
CREATE MATERIALIZED VIEW mv_dept_stats 
AS 
SELECT department, COUNT(*) as emp_count, AVG(emp_salary) as avg_salary
FROM employees 
GROUP BY department;

-- 查看视图
SHOW TABLES;  -- 视图也显示在列表中
DESC FORMATTED it_employees;

-- 修改视图
ALTER VIEW it_employees AS 
SELECT emp_id, emp_name, emp_salary, hire_date 
FROM employees 
WHERE department = 'IT';

-- 删除视图
DROP VIEW IF EXISTS it_employees;

视图是虚拟表，不存储实际数据，可以简化复杂查询。物化视图则实际存储计算结果，适合频繁使用的聚合查询。

2.4 索引操作

sql复制-- 创建索引
CREATE INDEX emp_index 
ON TABLE employees (emp_id) 
AS 'COMPACT'  -- 索引类型：COMPACT或BITMAP
WITH DEFERRED REBUILD;  -- 延迟重建

-- 重建索引
ALTER INDEX emp_index ON employees REBUILD;

-- 显示索引
SHOW INDEX ON employees;
SHOW FORMATTED INDEX ON employees;

-- 删除索引
DROP INDEX emp_index ON employees;

Hive索引使用较少，因为分区和分桶通常能提供更好的性能提升。但在某些特定查询场景下，索引仍然有其价值。

3. DML（数据操纵语言）详解

DML用于操作表中的数据，包括加载、插入、更新、删除等操作。

3.1 加载数据

3.1.1 LOAD DATA

sql复制-- 从本地文件系统加载（复制）
LOAD DATA LOCAL INPATH '/home/user/employees.csv'
OVERWRITE INTO TABLE employees;  -- OVERWRITE覆盖，不加则追加

-- 从HDFS加载（移动文件）
LOAD DATA INPATH '/data/employees.csv'
INTO TABLE employees;

-- 加载到分区
LOAD DATA LOCAL INPATH '/home/user/it_employees.csv'
INTO TABLE partitioned_employees 
PARTITION (department='IT', hire_year=2024);

LOAD DATA是Hive中最常用的数据加载方式，注意LOCAL关键字表示从本地文件系统加载，不加则表示从HDFS加载。

3.1.2 从查询插入

sql复制-- 标准插入
INSERT INTO TABLE employees
VALUES (1, '张三', 15000.00, '2024-01-01', 'IT', true);

-- 从查询插入
INSERT INTO TABLE employees
SELECT * FROM staging_employees WHERE is_active = true;

-- 覆盖插入
INSERT OVERWRITE TABLE employees
SELECT * FROM staging_employees WHERE department = 'IT';

-- 多表插入
FROM staging_employees se
INSERT OVERWRITE TABLE employees 
SELECT se.* WHERE se.is_active = true
INSERT INTO TABLE inactive_employees 
SELECT se.* WHERE se.is_active = false;

多表插入语法可以一次性从同一数据源向多个表插入数据，减少数据扫描次数，提高效率。

3.2 动态分区插入

sql复制-- 启用动态分区
SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;  -- 允许所有分区动态
SET hive.exec.max.dynamic.partitions = 1000;       -- 最大动态分区数

-- 动态分区插入
INSERT OVERWRITE TABLE partitioned_employees 
PARTITION (department, hire_year)
SELECT 
    emp_id, emp_name, emp_salary, hire_date,
    department,
    YEAR(hire_date) as hire_year
FROM staging_employees;

-- 混合分区（静态+动态）
INSERT INTO TABLE partitioned_employees 
PARTITION (department='IT', hire_year)  -- 静态指定IT，动态指定年份
SELECT emp_id, emp_name, emp_salary, hire_date, YEAR(hire_date)
FROM staging_employees 
WHERE department = 'IT';

动态分区可以简化分区数据加载流程，但需要注意控制分区数量，避免创建过多小分区影响性能。

3.3 更新数据（ACID表）

sql复制-- 需要启用事务
SET hive.support.concurrency = true;
SET hive.enforce.bucketing = true;
SET hive.exec.dynamic.partition.mode = nonstrict;
SET hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;

-- 创建ACID表
CREATE TABLE acid_employees (
    emp_id INT,
    emp_name STRING,
    emp_salary DECIMAL(10,2)
)
CLUSTERED BY (emp_id) INTO 4 BUCKETS
STORED AS ORC
TBLPROPERTIES ('transactional'='true');

-- 更新数据
UPDATE acid_employees 
SET emp_salary = emp_salary * 1.1 
WHERE emp_id = 1001;

Hive的ACID功能从Hive 0.14开始支持，但需要特定的表格式(ORC)和配置。适用于需要行级更新的场景。

3.4 删除数据

sql复制-- 删除数据（ACID表）
DELETE FROM acid_employees WHERE emp_id = 1001;

-- 删除整个表数据（非ACID表）
TRUNCATE TABLE employees;  -- 快速清空

-- 基于条件的删除（非ACID表，需要OVERWRITE）
INSERT OVERWRITE TABLE employees
SELECT * FROM employees WHERE is_active = true;

对于非ACID表，可以通过INSERT OVERWRITE方式实现条件删除，这种方式实际上是重写整个表。

3.5 MERGE（合并）

sql复制-- MERGE INTO (Hive 2.2+)
MERGE INTO employees AS target
USING staging_employees AS source
ON target.emp_id = source.emp_id
WHEN MATCHED THEN 
    UPDATE SET target.emp_name = source.emp_name,
               target.emp_salary = source.emp_salary
WHEN NOT MATCHED THEN 
    INSERT VALUES (source.emp_id, source.emp_name, 
                   source.emp_salary, source.hire_date,
                   source.department, source.is_active);

MERGE语句实现了"upsert"功能，即存在则更新，不存在则插入，是数据仓库中常用的ETL操作。

3.6 导出数据

sql复制-- 导出到本地文件系统
INSERT OVERWRITE LOCAL DIRECTORY '/home/user/export'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
SELECT * FROM employees;

-- 导出到HDFS
INSERT OVERWRITE DIRECTORY '/data/export/employees'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
SELECT emp_id, emp_name, emp_salary FROM employees;

数据导出时需要注意分隔符的选择，确保与目标系统的要求一致。对于大规模数据导出，建议直接使用HDFS路径。

4. 高级操作与优化

4.1 CTE（公用表表达式）

sql复制-- 使用WITH子句
WITH dept_stats AS (
    SELECT department, COUNT(*) as emp_count, AVG(emp_salary) as avg_salary
    FROM employees
    GROUP BY department
),
high_salary_depts AS (
    SELECT department FROM dept_stats WHERE avg_salary > 10000
)
SELECT e.* 
FROM employees e
JOIN high_salary_depts h ON e.department = h.department;

CTE可以提高复杂查询的可读性和可维护性，特别是在多层嵌套查询的场景下。

4.2 复杂数据类型

sql复制-- 创建包含复杂类型的表
CREATE TABLE complex_table (
    emp_id INT,
    emp_info STRUCT<name:STRING, age:INT>,  -- 结构体
    phone_numbers ARRAY<STRING>,             -- 数组
    properties MAP<STRING, STRING>           -- 映射
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':'
STORED AS TEXTFILE;

-- 插入复杂数据
INSERT INTO complex_table 
SELECT 
    1,
    named_struct('name', '张三', 'age', 30),
    array('13800000000', '13900000000'),
    map('height', '175cm', 'weight', '70kg')
FROM dummy LIMIT 1;

-- 查询复杂数据
SELECT 
    emp_info.name,
    phone_numbers[0],
    properties['height']
FROM complex_table;

复杂数据类型可以更自然地表示现实世界中的数据关系，减少表连接操作，提高查询效率。

4.3 自定义函数

sql复制-- 创建临时函数
ADD JAR /path/to/my-udf.jar;
CREATE TEMPORARY FUNCTION my_udf AS 'com.example.MyUDF';

-- 使用自定义函数
SELECT my_udf(emp_name) FROM employees;

-- 创建永久函数
CREATE FUNCTION my_permanent_udf 
AS 'com.example.MyUDF' 
USING JAR 'hdfs:///udfs/my-udf.jar';

当内置函数无法满足需求时，可以开发自定义函数(UDF)扩展Hive的功能。UDF开发需要Java编程能力。

5. DDL与DML对比总结

操作类型	示例	作用对象	是否修改数据	回滚能力
DDL - CREATE	`CREATE TABLE`	表结构	否	不可回滚
DDL - ALTER	`ALTER TABLE ADD COLUMNS`	表结构	否	不可回滚
DDL - DROP	`DROP TABLE`	表对象	是	可恢复（回收站）
DDL - TRUNCATE	`TRUNCATE TABLE`	表数据	是	不可恢复
DML - LOAD	`LOAD DATA`	表数据	是	不可回滚
DML - INSERT	`INSERT INTO`	表数据	是	可回滚（ACID）
DML - UPDATE	`UPDATE SET`	表数据	是	可回滚（ACID）
DML - DELETE	`DELETE FROM`	表数据	是	可回滚（ACID）

6. 最佳实践

6.1 命名规范

sql复制-- 数据库名：业务名_环境
CREATE DATABASE sales_prod;
CREATE DATABASE sales_dev;

-- 表名：主题_维度/事实_层次
CREATE TABLE dim_customer;
CREATE TABLE fact_sales_daily;

-- 列名：小写字母+下划线
CREATE TABLE user_info (
    user_id BIGINT,
    user_name STRING,
    created_time TIMESTAMP
);

一致的命名规范可以提高代码的可读性和可维护性，建议团队制定并遵守统一的命名规则。

6.2 存储格式选择

格式	压缩比	查询性能	适用场景
TEXTFILE	低	低	原始数据、小表
SEQUENCEFILE	中	中	中间数据
ORC	高	高	数据仓库、分析
PARQUET	高	高	Spark互操作
AVRO	中	中	数据交换

ORC和Parquet是生产环境中最推荐的列式存储格式，提供了优秀的压缩比和查询性能。

6.3 分区策略

sql复制-- 按日期分区（推荐）
CREATE TABLE fact_sales (
    product_id INT,
    amount DECIMAL(10,2)
)
PARTITIONED BY (sale_date STRING);

-- 按多个维度分区
CREATE TABLE fact_logs (
    log_id INT,
    content STRING
)
PARTITIONED BY (log_date STRING, log_type STRING);

-- 分区数建议：每个分区文件大小约1-2GB

合理的分区设计可以显著提高查询性能，但过多的分区会导致元数据管理开销增加。建议每个分区文件大小控制在1-2GB。

6.4 性能优化参数

sql复制-- 常用优化设置
SET hive.exec.parallel = true;  -- 并行执行
SET hive.exec.parallel.thread.number = 8;
SET hive.auto.convert.join = true;  -- 自动MapJoin
SET hive.mapjoin.smalltable.filesize = 25000000;  -- 小表阈值
SET hive.optimize.skewjoin = true;  -- 倾斜优化
SET hive.merge.mapfiles = true;  -- 合并小文件
SET hive.merge.mapredfiles = true;
SET hive.merge.size.per.task = 256000000;  -- 256MB

这些参数可以根据集群规模和查询特点进行调整，合理的参数配置可以显著提高Hive作业的执行效率。

7. 总结与学习建议

Hive SQL语言分类及核心功能：

语言类型	核心功能	常用命令	注意事项
DDL	定义数据库对象	CREATE, ALTER, DROP, TRUNCATE	谨慎执行DROP，可能丢失数据
DML	操作数据	LOAD, INSERT, UPDATE, DELETE	UPDATE/DELETE需要ACID表
DQL	查询数据	SELECT	结合WHERE、GROUP BY等

学习路径建议：

先掌握基础DDL（创建表、分区）
然后学习DML（加载数据、插入查询）
再深入了解高级特性（复杂类型、事务）
最后学习性能优化和最佳实践

在实际项目中，建议从简单的查询开始，逐步掌握更复杂的操作。同时，要重视性能优化，特别是分区设计和存储格式选择，这些因素对查询性能有重大影响。