Shell编程基础与实战：从入门到运维自动化-代码聚汇网

1. Shell编程基础：从零开始的命令行世界

作为一名在Linux系统管理领域摸爬滚打多年的老运维，我深知Shell脚本是每个技术人必须掌握的生存技能。2026年的今天，虽然各种高级编程语言层出不穷，但Shell在系统管理、自动化运维领域的地位依然不可撼动。让我们从最基础的概念开始，逐步构建完整的Shell编程知识体系。

1.1 Shell的本质与类型

Shell本质上是一个命令解释器，它像一位经验丰富的翻译官，将我们输入的人类可读命令转换为计算机能理解的二进制指令。这种交互方式自Unix诞生之初就存在，至今仍是Linux系统的核心交互方式。

现代Linux系统中常见的Shell类型主要有三种：

Bash（Bourne-Again Shell）：这是大多数Linux发行版的默认Shell，也是功能最全面的选择。它完全兼容sh并增加了许多实用功能，比如命令历史、Tab补全和强大的脚本编程能力。我强烈建议新手从Bash开始学习。
Zsh（Z Shell）：macOS系统的默认Shell，以其丰富的插件系统和强大的自动补全功能著称。如果你追求更炫酷的终端体验，可以尝试Oh My Zsh这类框架。
Sh（Bourne Shell）：这是最原始的Unix Shell，保持着极简的设计。虽然功能有限，但它的兼容性最好，适合编写需要跨平台运行的脚本。

查看当前使用的Shell非常简单：

bash复制echo $SHELL
# 输出示例：/bin/bash

经验之谈：在生产环境中，我始终坚持使用Bash编写脚本，除非有特殊兼容性要求。Bash的广泛支持和丰富功能能让你的脚本更健壮、更易维护。

1.2 Shell脚本的两种执行模式

根据使用场景的不同，Shell命令可以有两种执行方式：

交互式执行

这是最直接的命令执行方式，适合临时性任务和快速测试。你只需要在终端中输入命令，回车即可看到结果。例如：

bash复制ls -l /etc/  # 列出/etc目录下的详细文件信息
pwd         # 显示当前工作目录
whoami      # 显示当前登录用户

交互式执行的优点是即时反馈，缺点是无法保存和复用。当我们需要重复执行一系列命令时，就该考虑脚本文件了。

脚本文件执行

脚本文件是将一系列命令保存到文本文件中，通过解释器批量执行的方式。一个标准的Shell脚本应该包含以下要素：

bash复制#!/bin/bash
# 文件名：system_info.sh
# 功能：显示系统基本信息
# 作者：资深运维老王
# 日期：2026-03-15

echo "====== 系统信息 ======"
echo "主机名：$(hostname)"
echo "系统版本：$(cat /etc/os-release | grep PRETTY_NAME | cut -d'"' -f2)"
echo "内核版本：$(uname -r)"
echo "当前时间：$(date '+%Y-%m-%d %H:%M:%S')"

这个脚本展示了几个关键点：

#!/bin/bash 称为shebang，指定使用哪个解释器执行脚本
注释以#开头，良好的注释习惯能让脚本更易维护
使用命令替换$(command)获取命令输出
日期格式化输出展示了Shell的强大文本处理能力

执行脚本有三种常用方式：

bash复制bash system_info.sh    # 直接调用解释器，无需执行权限
./system_info.sh       # 需要先给执行权限：chmod +x system_info.sh
source system_info.sh  # 在当前Shell环境中执行，会继承环境变量

避坑提示：新手常犯的错误是直接运行没有执行权限的脚本。记住，使用./script.sh方式前必须先chmod +x script.sh。我建议团队统一使用bash script.sh的方式，既避免权限问题，又明确指定了解释器。

2. Shell编程核心：变量与运算符

2.1 变量的定义与使用

变量是Shell脚本的基石，它们用于存储数据和状态信息。Shell变量的定义和使用看似简单，但有很多细节需要注意。

变量定义规则

bash复制username="老王"      # 正确：等号两边不能有空格
count=42           # 正确：数字不需要引号
message="Hello $username"  # 正确：双引号内可以解析变量

常见的错误用法：

bash复制user = "张三"    # 错误：等号两边有空格
1var=value      # 错误：变量名以数字开头
var$=special    # 错误：变量名包含特殊字符

引号的微妙区别

Shell中有三种引号，它们的行为差异很大：

无引号：变量会被解析，但不处理空格和特殊字符
```
bash复制echo $username  # 输出：老王
```

单引号：完全原样输出，不解析任何内容

bash复制echo '$username $(date)'  # 输出：$username $(date)

双引号：解析变量和命令替换，但保留空格和大部分特殊字符

bash复制echo "当前用户：$username，时间：$(date)"  # 输出解析后的内容

实战经验：我强烈建议变量引用始终使用双引号包裹，这可以避免很多因空格或特殊字符导致的问题。特别是在处理文件路径时，rm "$filename"比rm $filename安全得多。

2.2 变量作用域与类型

Shell变量根据作用域可分为三类：

类型	定义方式	作用范围	查看方式
本地变量	`var=value`	当前Shell进程	`set`
环境变量	`export var=value`	所有子进程	`env`或`printenv`
Shell内置变量	由Shell预定义	全局可用	查看文档

常用的Shell内置变量：

bash复制$0    # 当前脚本名称
$1-$9 # 脚本参数
$#    # 参数个数
$@    # 所有参数列表
$*    # 所有参数合并为一个字符串
$?    # 上条命令的退出状态(0表示成功)
$$    # 当前进程PID
$!    # 最后一个后台进程PID

参数传递实战

bash复制#!/bin/bash
# backup.sh - 文件备份脚本
# 用法：backup.sh 源目录 目标目录 保留天数

if [ $# -ne 3 ]; then
    echo "错误：需要3个参数"
    echo "用法：$0 源目录 目标目录 保留天数"
    exit 1
fi

source_dir=$1
target_dir=$2
keep_days=$3

echo "正在备份 $source_dir 到 $target_dir..."
tar -czf "${target_dir}/backup_$(date +%Y%m%d).tar.gz" "$source_dir"
find "$target_dir" -name "backup_*.tar.gz" -mtime +$keep_days -delete

这个备份脚本展示了：

参数检查$#
参数引用$1,$2,$3
带变量的命令执行
日期格式化在文件名中的应用

2.3 运算符与计算

Shell虽然主要处理文本，但也支持各种运算操作。

算术运算

bash复制# 整数运算（推荐）
echo $((10 + 20))     # 30
echo $((10 / 3))      # 3（整数除法）

# 浮点运算（通过bc实现）
echo "scale=2; 10/3" | bc   # 3.33
echo "3.5 + 4.2" | bc       # 7.7

比较运算

比较运算在条件判断中特别重要：

数值比较：

bash复制[ $a -eq $b ]  # 等于
[ $a -ne $b ]  # 不等于
[ $a -gt $b ]  # 大于
[ $a -lt $b ]  # 小于
[ $a -ge $b ]  # 大于等于
[ $a -le $b ]  # 小于等于

字符串比较：

bash复制[ "$str1" = "$str2" ]   # 相等
[ "$str1" != "$str2" ]  # 不等
[ -z "$str" ]           # 为空
[ -n "$str" ]           # 非空

文件测试：

bash复制[ -e "file" ]    # 存在
[ -f "file" ]    # 是普通文件
[ -d "dir" ]     # 是目录
[ -r "file" ]    # 可读
[ -w "file" ]    # 可写
[ -x "file" ]    # 可执行
[ -s "file" ]    # 非空文件

性能技巧：在脚本中频繁使用的计算考虑使用$(( ))而不是调用外部命令如expr或bc，前者是Shell内置操作，效率更高。对于复杂计算，可以预先计算并存储结果，避免重复计算。

3. 流程控制：让脚本具备逻辑能力

3.1 条件判断：if语句

if语句是Shell脚本中最基础也是最重要的流程控制结构。它的基本语法如下：

bash复制if [ 条件 ]; then
    # 条件为真时执行的代码
elif [ 条件 ]; then
    # 其他条件检查
else
    # 所有条件都不满足时执行
fi

实际案例：系统负载检查

bash复制#!/bin/bash
# check_load.sh - 系统负载监控

load=$(uptime | awk -F'[a-z]:' '{print $2}' | cut -d, -f1 | sed 's/ //g')
threshold=1.0

if (( $(echo "$load > $threshold" | bc -l) )); then
    echo "[警告] 系统负载过高: $load"
    echo "当前进程TOP 5:"
    ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%cpu | head -n 6
else
    echo "[正常] 系统负载: $load"
fi

这个脚本展示了：

使用uptime获取系统负载
通过awk和cut提取负载值
使用bc进行浮点数比较
根据条件显示不同信息
负载高时显示占用CPU最多的进程

3.2 多分支选择：case语句

当需要根据一个变量的不同值执行不同操作时，case语句比多个if-elif更清晰：

bash复制case $变量 in
    模式1)
        命令1
        ;;
    模式2)
        命令2
        ;;
    *)
        默认命令
        ;;
esac

服务管理脚本示例：

bash复制#!/bin/bash
# service_manager.sh - 服务控制脚本

if [ $# -ne 1 ]; then
    echo "用法: $0 {start|stop|restart|status}"
    exit 1
fi

case $1 in
    start)
        echo "启动服务..."
        systemctl start nginx
        ;;
    stop)
        echo "停止服务..."
        systemctl stop nginx
        ;;
    restart)
        echo "重启服务..."
        systemctl restart nginx
        ;;
    status)
        echo "服务状态:"
        systemctl status nginx --no-pager
        ;;
    *)
        echo "无效参数: $1"
        exit 2
        ;;
esac

风格建议：case语句的模式匹配支持简单的通配符，如[yY]匹配y或Y，[0-9]匹配数字。保持模式简洁明了，复杂的匹配逻辑考虑使用if语句。

3.3 循环结构：for与while

循环是自动化处理的核心，Shell提供了多种循环方式。

for循环的四种形式

列表迭代：

bash复制for i in 1 2 3 4 5; do
    echo "数字: $i"
done

范围展开（推荐）：

bash复制for i in {1..5}; do
    echo "数字: $i"
done

# 可以指定步长
for i in {1..10..2}; do
    echo "奇数: $i"
done

C语言风格：

bash复制for ((i=1; i<=5; i++)); do
    echo "计数: $i"
done

文件遍历：

bash复制for file in /var/log/*.log; do
    echo "处理日志文件: $file"
    gzip "$file"
done

while循环的两种典型用法

条件控制：

bash复制count=1
while [ $count -le 5 ]; do
    echo "计数: $count"
    ((count++))
done

读取文件内容：

bash复制while IFS= read -r line; do
    echo "处理行: $line"
done < /etc/hosts

性能注意：while read循环是逐行处理大文件的推荐方式，因为它不会一次性加载整个文件到内存。设置IFS=可以保留行首尾的空格，-r选项防止反斜杠转义。

3.4 循环控制与退出

Shell提供了三个循环控制命令：

bash复制break     # 立即退出当前循环
continue  # 跳过本次循环，进入下一次
exit      # 退出整个脚本，可以指定退出码

实用案例：查找第一个满足条件的文件

bash复制#!/bin/bash
# find_first.sh - 查找目录中第一个大于1MB的日志文件

target_dir="/var/log"
found_file=""

for logfile in "$target_dir"/*.log; do
    if [ $(stat -c %s "$logfile") -gt 1000000 ]; then
        found_file="$logfile"
        break
    fi
done

if [ -n "$found_file" ]; then
    echo "找到大日志文件: $found_file"
    # 这里可以添加处理逻辑
else
    echo "未找到符合条件的日志文件"
    exit 1
fi

4. 函数与代码复用

4.1 函数定义与调用

函数是组织复杂脚本的利器，好的函数设计可以大大提高代码的复用性和可读性。

基本语法：

bash复制function_name() {
    # 函数体
    return 返回值
}

或者：

bash复制function function_name {
    # 函数体
    return 返回值
}

日志记录函数示例：

bash复制#!/bin/bash
# logging_functions.sh - 日志工具集

LOG_FILE="/var/log/myapp.log"

# 初始化日志系统
init_logger() {
    local log_dir=$(dirname "$LOG_FILE")
    [ -d "$log_dir" ] || mkdir -p "$log_dir"
    [ -f "$LOG_FILE" ] || touch "$LOG_FILE"
}

# 写入日志
log() {
    local level=$1
    local message=$2
    local timestamp=$(date '+%Y-%m-%d %H:%M:%S')
    echo "[$timestamp] [$level] $message" >> "$LOG_FILE"
    
    # 根据日志级别决定是否输出到终端
    case $level in
        ERROR|WARN) echo "[$level] $message" >&2 ;;
    esac
}

# 使用示例
init_logger
log INFO "脚本启动"
log ERROR "配置文件缺失，使用默认值"
log INFO "脚本完成"

这个日志模块展示了：

函数的定义和调用
局部变量使用local关键字
函数的参数传递
日志分级处理
错误输出重定向到stderr(>&2)

4.2 返回值与状态码

Shell函数通过return返回状态码(0-255)，通过echo输出返回值。

bash复制# 检查是否为root用户
check_root() {
    if [ $(id -u) -ne 0 ]; then
        echo "此操作需要root权限" >&2
        return 1
    fi
    return 0
}

# 计算两个数的和
add() {
    echo $(($1 + $2))
}

# 使用示例
if check_root; then
    echo "当前是root用户"
fi

result=$(add 10 20)
echo "10 + 20 = $result"

设计原则：保持函数单一职责，一个函数只做一件事。函数名应该清晰表达其功能，使用动词开头，如create_user、validate_input等。对于复杂的脚本，建议将相关函数组织到单独的库文件中，通过source引入。

4.3 数组与关联数组

Shell支持两种数组类型：索引数组和关联数组。

索引数组

bash复制# 定义数组
files=("file1.txt" "file2.txt" "file3.txt")

# 访问元素
echo "第一个文件: ${files[0]}"
echo "所有文件: ${files[@]}"
echo "文件数量: ${#files[@]}"

# 遍历数组
for file in "${files[@]}"; do
    echo "处理文件: $file"
done

# 修改数组
files+=("file4.txt")  # 添加元素
unset files[1]        # 删除第二个元素

关联数组(需要Bash 4.0+)

bash复制# 必须先声明
declare -A user

# 定义键值对
user[name]="张三"
user[age]=30
user[email]="zhangsan@example.com"

# 访问元素
echo "用户名: ${user[name]}"
echo "年龄: ${user[age]}"

# 遍历所有键
for key in "${!user[@]}"; do
    echo "$key: ${user[$key]}"
done

配置文件解析示例：

bash复制#!/bin/bash
# config_loader.sh - 配置文件解析

declare -A config

load_config() {
    local config_file=$1
    while IFS='=' read -r key value; do
        # 跳过注释和空行
        [[ $key == \#* ]] || [[ -z $key ]] && continue
        config["$key"]="$value"
    done < "$config_file"
}

# 示例配置文件内容：
# # 数据库配置
# db_host=localhost
# db_port=3306
# db_user=root
# db_pass=secret

load_config "app.conf"
echo "数据库主机: ${config[db_host]}"
echo "数据库端口: ${config[db_port]}"

5. 文本处理三剑客

5.1 grep：强大的文本搜索

grep是Linux中最常用的文本搜索工具，其基本语法为：

bash复制grep [选项] 模式 [文件...]

常用选项：

-i：忽略大小写
-v：反向匹配，显示不匹配的行
-n：显示行号
-r：递归搜索目录
-E：使用扩展正则表达式(等同于egrep)
-A num：显示匹配行及后面num行
-B num：显示匹配行及前面num行
-C num：显示匹配行及前后各num行

实用示例：

bash复制# 查找所有包含error的日志行(忽略大小写)
grep -i "error" /var/log/syslog

# 查找不是以#开头的行(排除注释)
grep -v "^#" /etc/nginx/nginx.conf

# 统计php文件中函数调用次数
grep -ro "function_name(" /var/www/*.php | wc -l

# 使用正则表达式匹配IP地址
grep -Eo "([0-9]{1,3}\.){3}[0-9]{1,3}" access.log

5.2 sed：流编辑器

sed是一个强大的流编辑器，适合对文本进行批量替换、删除、提取等操作。

基本语法：

bash复制sed [选项] '脚本' [输入文件]

常用命令：

s：替换，如s/old/new/g
d：删除行
p：打印行
i：插入行
a：追加行

实用示例：

bash复制# 替换文件中的所有旧字符串为新字符串
sed -i 's/old/new/g' file.txt

# 删除空行
sed '/^$/d' file.txt

# 删除1-5行
sed '1,5d' file.txt

# 只在第10-20行进行替换
sed '10,20s/old/new/g' file.txt

# 在匹配行前/后插入内容
sed '/pattern/i\插入的内容' file.txt
sed '/pattern/a\追加的内容' file.txt

# 多个编辑操作
sed -e 's/foo/bar/g' -e '/baz/d' file.txt

配置文件修改案例：

bash复制#!/bin/bash
# update_nginx_port.sh - 修改nginx监听端口

config_file="/etc/nginx/sites-available/default"
new_port="8080"

# 检查文件是否存在
[ -f "$config_file" ] || { echo "配置文件不存在"; exit 1; }

# 备份原文件
cp "$config_file" "${config_file}.bak"

# 替换监听端口
sed -i "s/listen [0-9]*;/listen ${new_port};/" "$config_file"

# 检查语法
nginx -t || { echo "配置错误，恢复备份"; cp "${config_file}.bak" "$config_file"; exit 1; }

# 重启nginx
systemctl restart nginx
echo "Nginx端口已更新为${new_port}"

5.3 awk：强大的文本分析工具

awk不仅仅是一个命令，而是一门完整的编程语言，特别适合处理结构化文本数据。

基本语法：

bash复制awk '模式 { 动作 }' [文件...]

内置变量：

NR：当前记录号(行号)
NF：当前行的字段数
FS：字段分隔符(默认为空格)
OFS：输出字段分隔符
RS：记录分隔符(默认为换行)
ORS：输出记录分隔符

实用示例：

bash复制# 打印文件的第1列和第3列
awk '{print $1, $3}' file.txt

# 指定分隔符为冒号(处理/etc/passwd)
awk -F: '{print $1, $6}' /etc/passwd

# 打印行号及内容
awk '{print NR, $0}' file.txt

# 条件过滤：只打印长度大于80的行
awk 'length($0) > 80' file.txt

# 计算文件总行数
awk 'END {print NR}' file.txt

# 计算列的总和
awk '{sum += $1} END {print sum}' data.txt

# 分组统计(统计每个用户的进程数)
ps -ef | awk '{user[$1]++} END {for(u in user) print u, user[u]}'

日志分析实战：

bash复制#!/bin/bash
# analyze_access_log.sh - 分析nginx访问日志

log_file="/var/log/nginx/access.log"

echo "====== 访问日志分析报告 ======"
echo "生成时间: $(date '+%Y-%m-%d %H:%M:%S')"
echo

# 总请求数
total=$(wc -l < "$log_file")
echo "1. 总请求数: $total"

# 各HTTP方法统计
echo
echo "2. HTTP方法统计:"
awk '{print $6}' "$log_file" | sort | uniq -c | sort -nr

# 访问最多的10个IP
echo
echo "3. 访问TOP 10 IP:"
awk '{print $1}' "$log_file" | sort | uniq -c | sort -nr | head -10

# 响应状态码统计
echo
echo "4. 响应状态码统计:"
awk '{print $9}' "$log_file" | sort | uniq -c | sort -nr

# 最频繁访问的10个URL
echo
echo "5. 热门URL TOP 10:"
awk '{print $7}' "$log_file" | sort | uniq -c | sort -nr | head -10

6. 实战案例：服务器监控脚本

6.1 完整监控脚本实现

下面是一个综合运用Shell编程各种技术的服务器监控脚本，它检查系统关键指标并在异常时发出警报。

bash复制#!/bin/bash
# server_monitor.sh - 综合服务器监控脚本
# 版本：2026.03

# 配置部分
CONFIG_FILE="/etc/server_monitor.conf"
LOG_FILE="/var/log/server_monitor.log"
ALERT_EMAIL="admin@example.com"
THRESHOLDS=(
    "CPU=80"        # CPU使用率阈值(%)
    "MEMORY=80"     # 内存使用率阈值(%)
    "DISK=90"       # 磁盘使用率阈值(%)
    "LOAD=5"        # 15分钟平均负载阈值
)

# 加载配置文件
[ -f "$CONFIG_FILE" ] && source "$CONFIG_FILE"

# 初始化日志
log() {
    local level=$1
    local message=$2
    local timestamp=$(date '+%Y-%m-%d %H:%M:%S')
    echo "[$timestamp] [$level] $message" >> "$LOG_FILE"
    
    # 错误级别以上同时输出到终端
    [ "$level" = "ERROR" ] || [ "$level" = "WARN" ] && echo "[$level] $message" >&2
}

# 发送邮件警报
send_alert() {
    local subject=$1
    local body=$2
    echo "$body" | mail -s "$subject" "$ALERT_EMAIL"
    log "ALERT" "已发送警报邮件: $subject"
}

# 检查CPU使用率
check_cpu() {
    local threshold=$(echo "${THRESHOLDS[0]}" | cut -d= -f2)
    local usage=$(top -bn1 | grep "Cpu(s)" | awk '{print $2 + $4}' | cut -d. -f1)
    
    if [ "$usage" -gt "$threshold" ]; then
        local msg="CPU使用率过高: ${usage}% (阈值: ${threshold}%)"
        log "ERROR" "$msg"
        send_alert "CPU警报 - $(hostname)" "$msg"
        return 1
    else
        log "INFO" "CPU使用率正常: ${usage}%"
        return 0
    fi
}

# 检查内存使用
check_memory() {
    local threshold=$(echo "${THRESHOLDS[1]}" | cut -d= -f2)
    local total=$(free -m | awk '/Mem:/ {print $2}')
    local used=$(free -m | awk '/Mem:/ {print $3}')
    local usage=$((used * 100 / total))
    
    if [ "$usage" -gt "$threshold" ]; then
        local msg="内存使用率过高: ${usage}% (${used}M/${total}M, 阈值: ${threshold}%)"
        log "ERROR" "$msg"
        send_alert "内存警报 - $(hostname)" "$msg"
        return 1
    else
        log "INFO" "内存使用率正常: ${usage}% (${used}M/${total}M)"
        return 0
    fi
}

# 检查磁盘空间
check_disk() {
    local threshold=$(echo "${THRESHOLDS[2]}" | cut -d= -f2)
    local problems=0
    
    df -h | awk 'NR>1 {print $5,$6}' | while read -r usage mount; do
        usage=${usage%\%}
        if [ "$usage" -gt "$threshold" ]; then
            local msg="磁盘空间警报: $mount 使用率 ${usage}% (阈值: ${threshold}%)"
            log "ERROR" "$msg"
            send_alert "磁盘警报 - $(hostname)" "$msg"
            ((problems++))
        fi
    done
    
    [ "$problems" -eq 0 ] && log "INFO" "所有磁盘空间使用正常"
    return $problems
}

# 检查系统负载
check_load() {
    local threshold=$(echo "${THRESHOLDS[3]}" | cut -d= -f2)
    local load=$(uptime | awk -F'load average:' '{print $2}' | awk -F, '{print $3}' | xargs)
    
    if (( $(echo "$load > $threshold" | bc -l) )); then
        local msg="系统负载过高: ${load} (15分钟平均, 阈值: ${threshold})"
        log "ERROR" "$msg"
        send_alert "负载警报 - $(hostname)" "$msg"
        return 1
    else
        log "INFO" "系统负载正常: ${load}"
        return 0
    fi
}

# 检查关键服务
check_services() {
    local services=("nginx" "mysql" "sshd")
    local problems=0
    
    for service in "${services[@]}"; do
        if ! systemctl is-active --quiet "$service"; then
            local msg="服务未运行: $service"
            log "ERROR" "$msg"
            send_alert "服务警报 - $(hostname)" "$msg"
            ((problems++))
            
            # 尝试自动重启
            systemctl restart "$service" && log "INFO" "已重启服务: $service"
        fi
    done
    
    [ "$problems" -eq 0 ] && log "INFO" "所有关键服务运行正常"
    return $problems
}

# 主监控函数
main() {
    log "INFO" "===== 开始服务器监控 ====="
    
    check_cpu
    check_memory
    check_disk
    check_load
    check_services
    
    log "INFO" "===== 监控完成 ====="
}

# 执行主函数
main

6.2 监控脚本关键点解析

配置管理：
- 使用配置文件/etc/server_monitor.conf存储可调整参数
- 阈值配置采用易于修改的数组形式
日志系统：
- 详细的日志记录，包含时间戳和日志级别
- 错误信息同时输出到stderr便于实时查看
监控项目：
- CPU使用率(用户+系统)
- 内存使用率(实际使用量)
- 磁盘空间(所有挂载点)
- 系统负载(15分钟平均值)
- 关键服务状态(nginx, mysql, sshd)
警报机制：
- 邮件通知管理员
- 服务异常时尝试自动恢复
错误处理：
- 每个检查函数返回状态码
- 详细的错误信息记录

部署建议：将此脚本设置为cron任务定期执行，例如每5分钟一次：
bash复制*/5 * * * * /path/to/server_monitor.sh
确保配置好邮件发送环境(mailx或sendmail)，并定期轮转日志文件。

7. Shell脚本调试与优化

7.1 调试技巧与常见错误

即使经验丰富的Shell程序员也会遇到脚本错误，掌握调试技巧至关重要。

调试模式

bash复制# 语法检查(不执行)
bash -n script.sh

# 跟踪执行(显示每条命令)
bash -x script.sh

# 组合使用
bash -xv script.sh

# 在脚本中启用调试
set -x   # 开启调试
code...
set +x   # 关闭调试

常见错误类型

语法错误：
- 缺少空格：[ $var=value ]应为[ "$var" = "value" ]
- 缺少结束符：if缺少fi，case缺少esac
- 引号不匹配
运行时错误：
- 变量未定义：rm -rf $DIR/(当DIR为空时变成rm -rf /)
- 权限不足：尝试写入系统目录
- 命令不存在：使用了未安装的工具
逻辑错误：
- 条件判断错误
- 循环无法退出
- 错误的退出状态处理

防御性编程技巧

bash复制#!/bin/bash
# 防御性编程示例

# 设置严格模式
set -euo pipefail

# 检查必需命令是否存在
command -v awk >/dev/null || { echo "awk未安装"; exit 1; }

# 验证参数
[ $# -ge 2 ] || { echo "用法: $0 参数1 参数2"; exit 1; }

# 检查文件是否存在
config_file="/path/to/config"
[ -f "$config_file" ] || { echo "配置文件不存在: $config_file"; exit 1; }

# 使用临时文件
temp_file=$(mktemp) || { echo "无法创建临时文件"; exit 1; }
trap 'rm -f "$temp_file"' EXIT  # 确保退出时删除

# 安全的变量引用
dir="${DIR:-/default/path}"  # 默认值
rm -rf "${dir:?}/files"      # 如果dir为空则报错

7.2 性能优化技巧

Shell脚本虽然不如编译型语言高效，但通过一些技巧可以显著提升性能。

减少子进程创建

bash复制# 慢 - 创建了两个子进程
grep "pattern" file.txt | wc -l

# 快 - 只创建一个子进程
grep -c "pattern" file.txt

使用内置命令替代外部命令

bash复制# 慢 - 调用外部命令
echo "scale=2; 10/3" | bc

# 快 - 使用bash内置算术
result=$((100*10/3))
echo "${result%??}.${result: -2}"

批量处理替代逐行处理

bash复制# 慢 - 每行都启动一次sed
while read line; do
    sed -i "s/old/new/" <<< "$line"
done < file.txt

# 快 - 一次性处理
sed -i "s/old/new/g" file.txt

使用更高效的工具组合

bash复制# 慢 - 多次调用awk
for user in $(cut -d: -f1 /etc/passwd); do
    awk -v u="$user" -F: '$1==u{print $5}' /etc/passwd
done

# 快 - 单次awk处理
awk -F: '{print $1, $5}' /etc/passwd

缓存命令输出

bash复制# 多次使用同一命令结果时缓存它
files_list=$(find /tmp -type f -name "*.log")
echo "找到 ${#files_list[@]} 个日志文件"
process_files "$files_list"

性能测试工具：使用time命令测量脚本执行时间：
bash复制time ./script.sh
对于复杂脚本，可以使用set -x或添加调试输出定位耗时部分。

8. Shell脚本安全实践

8.1 安全编程原则

Shell脚本经常需要处理敏感数据和执行特权操作，安全问题不容忽视。

输入验证

bash复制# 验证IP地址参数
ip="$1"
if [[ ! "$ip" =~ ^[0-9]{1,3}\.[0-9]{1,3}\

Shell编程基础与实战：从入门到运维自动化

1. Shell编程基础：从零开始的命令行世界

1.1 Shell的本质与类型

1.2 Shell脚本的两种执行模式

交互式执行

脚本文件执行

2. Shell编程核心：变量与运算符

2.1 变量的定义与使用

变量定义规则

引号的微妙区别

2.2 变量作用域与类型

参数传递实战

2.3 运算符与计算

算术运算

比较运算

3. 流程控制：让脚本具备逻辑能力

3.1 条件判断：if语句

3.2 多分支选择：case语句

3.3 循环结构：for与while

for循环的四种形式

while循环的两种典型用法

3.4 循环控制与退出

4. 函数与代码复用

4.1 函数定义与调用

4.2 返回值与状态码

4.3 数组与关联数组

索引数组

关联数组(需要Bash 4.0+)

5. 文本处理三剑客

5.1 grep：强大的文本搜索

5.2 sed：流编辑器

5.3 awk：强大的文本分析工具

6. 实战案例：服务器监控脚本

6.1 完整监控脚本实现

6.2 监控脚本关键点解析

7. Shell脚本调试与优化

7.1 调试技巧与常见错误

调试模式

常见错误类型

防御性编程技巧

7.2 性能优化技巧

减少子进程创建

使用内置命令替代外部命令

批量处理替代逐行处理

使用更高效的工具组合

缓存命令输出

8. Shell脚本安全实践

8.1 安全编程原则

输入验证

内容推荐