Shell脚本编程：从基础到自动化实战-代码聚汇网

Shell脚本编程：从基础到自动化实战

矢锋

1. Shell 脚本编程基础：从零到自动化

在Linux系统管理中，Shell脚本就像是一把瑞士军刀，能够将零散的命令组合成强大的自动化工具。作为一名在openEuler环境下工作的系统管理员，掌握Shell脚本编写能力意味着你可以：

将重复性的日常工作自动化，比如每天凌晨3点的日志清理
快速部署新服务器环境，无需手动执行几十条命令
构建复杂的系统监控和告警机制
开发自定义的系统管理工具，提升整个团队的工作效率

我至今记得第一次用脚本自动完成服务器集群部署时的震撼——原本需要半天的手动操作，现在只需运行一个脚本，5分钟就能搞定。这就是Shell脚本的魅力所在。

2. Shell脚本核心要素解析

2.1 脚本的基本结构

每个Shell脚本都遵循着相似的结构模式，理解这些基础组件是编写可靠脚本的第一步：

bash复制#!/bin/bash
# 脚本描述：这是一个示例脚本
# 作者：Your Name
# 日期：2023-06-15

# 变量定义
CONFIG_FILE="/etc/app.conf"

# 函数定义
check_service() {
    systemctl is-active --quiet "$1" && return 0 || return 1
}

# 主程序逻辑
main() {
    if [ ! -f "$CONFIG_FILE" ]; then
        echo "错误：配置文件不存在" >&2
        exit 1
    fi
    
    check_service nginx || systemctl start nginx
}

# 脚本入口
main "$@"

关键点说明：

Shebang(#!/bin/bash)必须位于第一行，指定使用Bash解释器
详细的注释应该说明脚本用途、作者和修改历史
变量定义在脚本开头，便于集中管理
使用函数封装可复用的代码块
主逻辑放在main函数中，保持结构清晰
最后调用main并传递所有参数

2.2 变量使用的最佳实践

变量是脚本的"记忆单元"，合理使用能让脚本更灵活：

bash复制# 基础变量定义
app_name="myapp"
version=1.0
debug_mode=true

# 只读变量（常量）
readonly MAX_RETRIES=3

# 环境变量（子进程可继承）
export DB_HOST="192.168.1.100"

# 数组变量
services=("nginx" "mysql" "redis")

# 关联数组(需要Bash 4.0+)
declare -A config
config["host"]="example.com"
config["port"]=8080

变量使用技巧：

变量名使用大写字母和下划线命名常量，小写字母命名普通变量
对可能包含空格的字符串值始终使用引号
使用${var}语法替代$var，避免边界歧义
敏感信息(如密码)不要硬编码在脚本中

2.3 条件判断的深度应用

条件判断是脚本"做决定"的核心机制，掌握各种判断技巧至关重要：

bash复制# 文件测试
if [ -f "/etc/passwd" ]; then
    echo "密码文件存在"
fi

# 字符串比较
if [ "$USER" = "root" ]; then
    echo "警告：请不要使用root用户直接操作"
fi

# 数值比较
if [ $# -lt 2 ]; then
    echo "错误：需要至少2个参数" >&2
    exit 1
fi

# 组合条件
if [ -x "$command" ] && [ $UID -eq 0 ]; then
    echo "可执行文件且由root运行"
fi

# 使用双括号进行算术比较
if (( $retries > MAX_RETRIES )); then
    echo "超过最大重试次数"
fi

高级条件技巧：

使用[[ ]]替代[ ]获得更强大的模式匹配功能
了解短路求值：cmd1 && cmd2(cmd1成功才执行cmd2)
使用case语句处理多分支条件更清晰

3. 循环结构与实战应用

3.1 for循环的多种用法

for循环是处理已知集合的理想选择：

bash复制# 遍历数字范围
for i in {1..5}; do
    echo "处理任务 $i"
done

# 遍历文件
for logfile in /var/log/*.log; do
    echo "分析日志文件: $logfile"
    grep "ERROR" "$logfile" >> errors.txt
done

# C风格for循环
for ((i=0; i<10; i++)); do
    echo "计数: $i"
done

# 遍历数组元素
services=("web" "db" "cache")
for service in "${services[@]}"; do
    echo "检查服务: $service"
done

3.2 while循环与持续监控

while循环适合处理不确定次数的重复操作：

bash复制# 基本while循环
count=1
while [ $count -le 5 ]; do
    echo "尝试 $count"
    ((count++))
done

# 读取文件行
while IFS= read -r line; do
    echo "处理行: $line"
done < config.txt

# 无限循环(需要明确的退出条件)
while true; do
    cpu_usage=$(top -bn1 | grep "Cpu(s)" | awk '{print $2}')
    if (( $(echo "$cpu_usage > 90" | bc -l) )); then
        echo "CPU使用率过高: $cpu_usage%"
        break
    fi
    sleep 5
done

循环控制技巧：

使用break提前退出循环
使用continue跳过当前迭代
避免无限循环，总要设置退出条件
处理大文件时，使用while read比for更高效

4. 函数设计与模块化编程

4.1 函数定义与使用规范

函数是Shell脚本中实现代码复用的主要方式：

bash复制# 基本函数定义
function logger() {
    local level="$1"
    local message="$2"
    local timestamp=$(date "+%Y-%m-%d %H:%M:%S")
    echo "[$timestamp] [$level] $message" >> "$LOG_FILE"
}

# 带返回值的函数
is_service_running() {
    local service_name="$1"
    if systemctl is-active --quiet "$service_name"; then
        return 0
    else
        return 1
    fi
}

# 使用函数
logger "INFO" "脚本开始执行"

if is_service_running "nginx"; then
    logger "WARNING" "Nginx已经在运行"
else
    systemctl start nginx
fi

函数最佳实践：

使用local声明局部变量，避免污染全局命名空间
函数名使用小写字母和下划线命名
保持函数短小专注(最好不超过20行)
通过返回值(0成功，非0失败)而不是输出来表示状态
为函数编写使用说明注释

4.2 错误处理与脚本健壮性

健壮的脚本需要完善的错误处理机制：

bash复制# 设置错误时立即退出
set -e

# 设置未定义变量使用时报错
set -u

# 管道中任意命令失败则整个管道失败
set -o pipefail

# 定义错误处理函数
handle_error() {
    local lineno="$1"
    local msg="$2"
    echo "错误发生在行 $lineno: $msg"
    exit 1
}

trap 'handle_error ${LINENO} "$BASH_COMMAND"' ERR

# 示例可能失败的操作
mkdir -p /tmp/backup || {
    echo "无法创建备份目录" >&2
    exit 1
}

# 清理临时文件的trap
cleanup() {
    rm -f "$TEMP_FILE"
}
trap cleanup EXIT

增强脚本可靠性：

使用set -euo pipefail使脚本在错误时更严格
为关键操作添加错误检查
使用trap设置信号处理，确保资源清理
重要操作前进行预检查(如磁盘空间、权限等)

5. 实战：系统监控与告警脚本开发

5.1 需求分析与设计

让我们开发一个实用的系统监控脚本，具有以下功能：

监控CPU、内存、磁盘使用率
可配置的阈值告警
支持邮件和日志告警
可扩展的监控项

bash复制#!/bin/bash
# 系统资源监控脚本 v1.0

# 配置部分
readonly THRESHOLD_CPU=80
readonly THRESHOLD_MEM=85
readonly THRESHOLD_DISK=90
readonly LOG_FILE="/var/log/system_monitor.log"
readonly ALERT_EMAIL="admin@example.com"

# 初始化日志
init_logging() {
    touch "$LOG_FILE"
    exec 3>> "$LOG_FILE"  # 打开额外的文件描述符用于日志
}

# 记录日志
log() {
    local level=$1
    local message=$2
    echo "[$(date '+%Y-%m-%d %H:%M:%S')] [$level] $message" >&3
}

# 发送邮件告警
send_alert() {
    local subject=$1
    local body=$2
    # 实际环境中应配置好邮件发送工具
    echo "$body" | mail -s "$subject" "$ALERT_EMAIL"
    log "ALERT" "已发送告警邮件: $subject"
}

5.2 监控功能实现

bash复制# 检查CPU使用率
check_cpu() {
    local cpu_usage=$(top -bn1 | grep "Cpu(s)" | awk '{print $2 + $4}')
    if (( $(echo "$cpu_usage > $THRESHOLD_CPU" | bc -l) )); then
        log "WARNING" "CPU使用率过高: ${cpu_usage}%"
        send_alert "CPU告警" "CPU使用率已达到 ${cpu_usage}%"
        return 1
    fi
    log "INFO" "CPU使用率正常: ${cpu_usage}%"
    return 0
}

# 检查内存使用
check_memory() {
    local mem_total=$(free -m | awk '/Mem:/ {print $2}')
    local mem_used=$(free -m | awk '/Mem:/ {print $3}')
    local mem_usage=$((mem_used * 100 / mem_total))
    
    if [ $mem_usage -gt $THRESHOLD_MEM ]; then
        log "WARNING" "内存使用率过高: ${mem_usage}%"
        send_alert "内存告警" "内存使用率已达到 ${mem_usage}% (${mem_used}MB/${mem_total}MB)"
        return 1
    fi
    log "INFO" "内存使用率正常: ${mem_usage}%"
    return 0
}

# 检查磁盘空间
check_disk() {
    local disk_usage=$(df -h / | awk 'NR==2 {print $5}' | tr -d '%')
    if [ $disk_usage -gt $THRESHOLD_DISK ]; then
        log "WARNING" "磁盘使用率过高: ${disk_usage}%"
        send_alert "磁盘告警" "根分区使用率已达到 ${disk_usage}%"
        return 1
    fi
    log "INFO" "磁盘使用率正常: ${disk_usage}%"
    return 0
}

5.3 主程序与调度逻辑

bash复制# 主监控函数
run_checks() {
    log "INFO" "开始系统监控检查"
    
    check_cpu
    check_memory
    check_disk
    
    log "INFO" "系统监控检查完成"
}

# 帮助信息
show_help() {
    echo "Usage: $0 [options]"
    echo "Options:"
    echo "  -d    后台守护进程模式"
    echo "  -i N  间隔N秒检查一次(默认60)"
    echo "  -h    显示此帮助"
}

# 解析命令行参数
parse_args() {
    local OPTIND opt
    local daemon_mode=false
    local interval=60
    
    while getopts ":dhi:" opt; do
        case "$opt" in
            d) daemon_mode=true ;;
            i) interval="$OPTARG" ;;
            h) show_help; exit 0 ;;
            \?) echo "无效选项: -$OPTARG" >&2; exit 1 ;;
        esac
    done
    
    if $daemon_mode; then
        while true; do
            run_checks
            sleep "$interval"
        done
    else
        run_checks
    fi
}

# 脚本入口
main() {
    init_logging
    parse_args "$@"
    exit 0
}

main "$@"

5.4 脚本部署与使用

将脚本保存为/usr/local/bin/system_monitor.sh
添加可执行权限：chmod +x /usr/local/bin/system_monitor.sh
测试运行：system_monitor.sh
作为守护进程运行：system_monitor.sh -d -i 300 (每5分钟检查一次)

添加到cron定时任务：

bash复制# 每30分钟运行一次
*/30 * * * * /usr/local/bin/system_monitor.sh

实际运行效果：

code复制$ cat /var/log/system_monitor.log
[2023-06-15 14:30:00] [INFO] 开始系统监控检查
[2023-06-15 14:30:00] [INFO] CPU使用率正常: 35.2%
[2023-06-15 14:30:00] [INFO] 内存使用率正常: 68%
[2023-06-15 14:30:00] [INFO] 磁盘使用率正常: 45%
[2023-06-15 14:30:00] [INFO] 系统监控检查完成

6. Shell脚本调试与优化技巧

6.1 调试方法与工具

调试是脚本开发的重要环节：

bash复制# 使用-x选项打印执行的每一条命令
bash -x script.sh

# 在脚本中启用调试模式
set -x  # 开启调试
# 你的代码
set +x  # 关闭调试

# 打印变量值调试
echo "DEBUG: 变量值: $var" >&2

# 使用bashdb调试器(需要安装)
bashdb script.sh

# 检查脚本语法而不执行
bash -n script.sh

6.2 性能优化建议

Shell脚本虽然方便，但性能不如编译型语言，需要注意优化：

bash复制# 避免在循环中调用外部命令
# 不好: 每次循环都调用date
for i in {1..100}; do
    echo "$(date) 处理 $i"
done

# 好: 提前获取时间戳
now=$(date)
for i in {1..100}; do
    echo "$now 处理 $i"
done

# 使用内置字符串操作替代外部命令
# 不好: 使用cut
echo "$var" | cut -d':' -f2

# 好: 使用参数扩展
echo "${var#*:}"

# 减少管道使用
# 不好: 多个管道
ps aux | grep nginx | awk '{print $2}'

# 好: 单个awk命令
ps aux | awk '/nginx/ {print $2}'

6.3 安全编码实践

安全的脚本能防止意外和恶意行为：

bash复制# 总是引用变量，防止空格和特殊字符问题
rm -rf "$dir"  # 好
rm -rf $dir    # 危险！

# 检查输入参数
if [ -z "$1" ]; then
    echo "错误：缺少参数" >&2
    exit 1
fi

# 使用mktemp创建临时文件
tempfile=$(mktemp /tmp/script.XXXXXX)
trap 'rm -f "$tempfile"' EXIT

# 限制脚本运行用户
if [ "$(whoami)" != "appuser" ]; then
    echo "错误：必须使用appuser运行此脚本" >&2
    exit 1
fi

# 敏感信息处理
read -s -p "输入密码: " password
echo
# 使用后立即清除
unset password

7. 高级Shell脚本技巧

7.1 信号处理与进程控制

bash复制# 捕获Ctrl+C中断
trap 'cleanup; exit 1' INT

# 防止脚本重复运行
LOCK_FILE="/tmp/script.lock"
if [ -e "$LOCK_FILE" ]; then
    echo "错误：脚本已经在运行" >&2
    exit 1
fi
touch "$LOCK_FILE"
trap 'rm -f "$LOCK_FILE"' EXIT

# 超时控制
timeout=60
if ! command=$(timeout $timeout long_running_command); then
    echo "命令执行超时" >&2
fi

# 并行执行控制
max_jobs=4
for item in {1..10}; do
    while [ $(jobs | wc -l) -ge $max_jobs ]; do
        sleep 1
    done
    process_item "$item" &
done
wait  # 等待所有后台任务完成

7.2 使用关联数组和高级数据结构

bash复制# 关联数组(需要Bash 4.0+)
declare -A server_ports
server_ports["web"]=80
server_ports["db"]=3306
server_ports["cache"]=6379

# 遍历关联数组
for server in "${!server_ports[@]}"; do
    echo "$server 使用端口 ${server_ports[$server]}"
done

# 模拟更复杂的数据结构
declare -A servers
servers["web1"]="ip=192.168.1.10 port=80 status=up"
servers["db1"]="ip=192.168.1.20 port=3306 status=down"

# 解析"对象"属性
for server in "${!servers[@]}"; do
    eval "declare -A props=(${servers[$server]})"
    echo "$server: IP=${props[ip]}, 端口=${props[port]}, 状态=${props[status]}"
done

7.3 与外部工具集成

bash复制# 使用jq处理JSON
json_data='{"servers":[{"name":"web1","status":"up"},{"name":"db1","status":"down"}]}'
echo "$json_data" | jq -r '.servers[] | select(.status=="up") | .name'

# 使用curl调用API
api_response=$(curl -sS -H "Authorization: Bearer $TOKEN" \
    "https://api.example.com/v1/servers")

# 使用awk进行高级文本处理
awk -F: '{
    if ($3 >= 1000) {
        print "普通用户:", $1
    } else {
        print "系统用户:", $1
    }
}' /etc/passwd

# 使用sed进行流编辑
sed -i.bak '/^#/d;/^$/d' config.txt  # 删除注释和空行并创建备份

8. 脚本项目管理与维护

8.1 项目组织规范

随着脚本复杂度增加，良好的项目结构很重要：

code复制/usr/local/bin/
├── system_utils/          # 脚本项目目录
│   ├── bin/               # 可执行脚本
│   │   ├── monitor.sh
│   │   └── backup.sh
│   ├── lib/               # 公共函数库
│   │   └── utils.sh
│   ├── etc/               # 配置文件
│   │   └── config.cfg
│   ├── logs/              # 日志目录
│   ├── README.md          # 项目文档
│   └── tests/             # 测试脚本
└── system_utils -> system_utils/bin/  # 符号链接

8.2 版本控制与协作

即使是脚本也应该使用版本控制：

bash复制# 初始化Git仓库
git init
git add .
git commit -m "初始提交"

# 添加.gitignore文件
echo "*.log" >> .gitignore
echo "/tmp/" >> .gitignore

# 多人协作时使用分支
git checkout -b feature/new-monitor
# 开发完成后合并
git checkout main
git merge feature/new-monitor

8.3 文档与帮助系统

良好的文档让脚本更易维护：

bash复制#!/bin/bash
# 系统备份脚本
#
# 用法:
#   backup.sh [选项] [目录...]
#
# 选项:
#   -c FILE    指定配置文件
#   -d         启用调试模式
#   -h         显示此帮助
#
# 示例:
#   backup.sh -c /etc/backup.conf /home /etc
#
# 退出状态:
#   0 - 成功
#   1 - 参数错误
#   2 - 备份失败

help() {
    grep "^# " "$0" | sed 's/^# //'
    exit 0
}

# 解析帮助请求
[ "$1" = "-h" ] && help

9. 从脚本到专业工具

9.1 打包为系统命令

让脚本像原生命令一样工作：

bash复制# 安装到/usr/local/bin
sudo install -m 755 script.sh /usr/local/bin/mycmd

# 创建man手册页
sudo mkdir -p /usr/local/share/man/man1
sudo cp mycmd.1.gz /usr/local/share/man/man1/

# 添加bash补全
sudo cp mycmd-completion.bash /etc/bash_completion.d/

9.2 日志与审计

专业的日志记录对运维至关重要：

bash复制# 统一日志函数
log() {
    local level=$1
    local message=$2
    local timestamp=$(date "+%Y-%m-%d %H:%M:%S")
    local log_entry="[$timestamp] [$level] [${SCRIPT_NAME}] $message"
    
    # 写入系统日志
    logger -t "$SCRIPT_NAME" "$log_entry"
    
    # 同时写入文件
    echo "$log_entry" >> "$LOG_FILE"
    
    # 根据级别控制输出
    case "$level" in
        ERROR) echo "$log_entry" >&2 ;;
        WARN)  [ "$VERBOSE" -gt 0 ] && echo "$log_entry" >&2 ;;
        INFO)  [ "$VERBOSE" -gt 1 ] && echo "$log_entry" ;;
    esac
}

# 使用示例
log "INFO" "脚本初始化完成"
log "ERROR" "配置文件不存在"

9.3 转换为系统服务

让关键脚本作为系统服务运行：

bash复制# 创建systemd服务单元 /etc/systemd/system/monitor.service
[Unit]
Description=System Monitor Service
After=network.target

[Service]
Type=simple
User=monitor
ExecStart=/usr/local/bin/monitor.sh -d
Restart=on-failure
RestartSec=30

[Install]
WantedBy=multi-user.target

# 启用并启动服务
sudo systemctl daemon-reload
sudo systemctl enable monitor
sudo systemctl start monitor

10. 持续学习与资源推荐

10.1 进阶学习路径

Bash参考手册：man bash 或在线版本
Google Shell风格指南：Shell脚本的最佳实践
Bash Pitfalls：常见错误和如何避免
Advanced Bash-Scripting Guide：深入讲解Bash高级特性

10.2 实用工具集

shellcheck：静态分析工具，检查脚本问题
bats：Bash自动化测试系统
expect：自动化交互式程序
ansible：当Shell不够用时，考虑配置管理工具

10.3 性能关键场景的替代方案

当Shell脚本遇到性能瓶颈时，可以考虑：

Python/Ruby：更强大的脚本语言，适合复杂逻辑
Go/Rust：需要高性能时的编译型选择
AWK：专门为文本处理设计，性能优异
Makefile：适合构建自动化场景

记住，Shell脚本最适合的是系统管理和胶水逻辑。当项目变得复杂时，不要犹豫迁移到更适合的工具。