Shell脚本实战：高效打印文本空行行号的四种方法

洛裳

1. Shell脚本实战：高效打印文本空行行号的四种方法

在日常的Linux系统管理和数据处理工作中，处理文本文件是最基础也最频繁的操作之一。特别是在自动化脚本编写、日志分析等场景下，快速定位文件中的空行位置是一项非常实用的技能。今天我将分享四种不同的Shell方法来实现这个功能，每种方法都有其适用场景和性能特点。

提示：本文所有示例均以nowcoder.txt作为测试文件，实际操作时请替换为你的目标文件名

1.1 为什么需要识别空行

空行在文本处理中往往具有特殊意义：

可能是数据记录的分隔符
可能是日志文件中的时间分割标记
可能是配置文件中不同章节的分界
也可能是需要清理的多余行

准确识别空行位置能帮助我们：

分析文件结构
验证数据完整性
进行格式检查
预处理数据文件

2. 方法详解与性能对比

2.1 awk命令方案 - 专业文本处理的瑞士军刀

awk是Linux下最强大的文本处理工具之一，特别适合处理结构化文本数据。用它来处理空行识别任务简直是小菜一碟：

bash复制awk '/^$/{print NR}' nowcoder.txt

原理解析：

/^$/ 是一个正则表达式匹配模式：
- ^ 代表行首
- $ 代表行尾
- 两者之间无任何字符，即匹配空行
NR 是awk内置变量，表示"Number of Record"（当前行号）
整个命令的意思是：当遇到空行时，打印其行号

性能特点：

单进程处理，无需管道
awk本身对大型文件处理效率很高
支持更复杂的条件判断和后续处理

进阶技巧：

如果文件中包含只含空白字符（空格、制表符等）的行，可以使用：

bash复制awk '/^[[:space:]]*$/{print NR}' nowcoder.txt

这里的[[:space:]]匹配任何空白字符，*表示零次或多次重复。

2.2 grep与awk组合 - 强强联合的方案

bash复制grep -n '^$' nowcoder.txt | awk -F: '{print $1}'

分步解析：

grep -n '^$' nowcoder.txt：
- -n 选项让grep输出匹配行的行号
- 输出格式为"行号:匹配内容"（对于空行就是"行号:"）
awk -F: '{print $1}'：
- -F: 设置字段分隔符为冒号
- 打印第一个字段（即行号）

适用场景：

当你已经熟悉grep的正则表达式语法时
需要先查看匹配内容再决定后续处理时
作为复杂管道处理的一个环节

性能考虑：

比纯awk方案多了一个进程和管道开销
对于超大文件可能稍慢
但grep的匹配速度非常快，实际差异不大

2.3 sed方案 - 流编辑器的另类用法

bash复制sed -n '/^$/=' nowcoder.txt

命令解析：

-n 抑制默认输出（不打印非匹配行）
/^$/ 匹配空行的模式
= 是sed的特殊命令，打印当前行号

sed方案的特点：

语法最为简洁
适合已经熟悉sed的用户
处理速度与awk相当
可以方便地扩展为更复杂的编辑操作

常见问题：

Q：为什么我的sed命令在Mac上不工作？
A：Mac使用的是BSD版本的sed，与GNU sed有些语法差异。可以尝试：

bash复制gsed -n '/^$/=' nowcoder.txt  # 需要先安装gnu-sed

或者使用更兼容的写法：

bash复制sed -n '/^$/{
=
}' nowcoder.txt

2.4 Bash原生循环方案 - 最基础也最灵活

bash复制#!/bin/bash
i=0
while read line; do
    i=$((i+1))
    if [ -z "$line" ]; then
        echo "$i"
    fi
done < nowcoder.txt

代码解读：

i=0 初始化行号计数器
while read line 逐行读取文件内容
i=$((i+1)) 行号递增
[ -z "$line" ] 测试变量是否为空字符串
echo "$i" 打印空行的行号

适用情况：

需要最大兼容性（所有Bash环境都支持）
要在空行处理中加入更复杂逻辑时
作为更大脚本的一部分

性能警告：

这是四种方法中最慢的
对于大文件（>1MB）性能明显下降
每行都会产生子shell开销

3. 高级技巧与实战应用

3.1 处理包含空白字符的"空行"

实际工作中，所谓的"空行"可能包含空格、制表符等空白字符。我们需要修改正则表达式来匹配这些情况：

bash复制# 匹配真正空行或只含空白字符的行
awk '/^[[:space:]]*$/{print NR}' nowcoder.txt

# 等效的grep版本
grep -n '^[[:space:]]*$' nowcoder.txt | cut -d: -f1

# sed版本
sed -n '/^[[:space:]]*$/=' nowcoder.txt

3.2 统计空行数量

在打印行号的基础上，我们经常还需要统计空行总数：

bash复制# 方法1：计数输出行数
awk '/^$/{print NR}' nowcoder.txt | wc -l

# 方法2：使用awk内部计数
awk '/^$/{count++; print NR} END{print "Total:", count}' nowcoder.txt

3.3 删除空行并记录位置

有时我们需要删除空行，但先记录下它们的位置：

bash复制# 记录空行位置到文件
awk '/^$/{print NR > "empty_lines.log"; next}1' nowcoder.txt > cleaned.txt

这个命令会：

将空行行号保存到empty_lines.log
删除空行（next跳过当前行）
其他行原样输出（最后的1是awk的打印简写）

3.4 性能对比测试

使用time命令测试处理一个100万行文件的性能：

bash复制# 生成测试文件
seq 1000000 | sed '5~7s/.*//' > testfile  # 每7行插入一个空行

# 测试各方法
time awk '/^$/{print NR}' testfile > /dev/null
time grep -n '^$' testfile | cut -d: -f1 > /dev/null
time sed -n '/^$/=' testfile > /dev/null
time bash while_read_loop.sh testfile > /dev/null

典型结果（仅供参考）：

awk: 0.3s
grep+cut: 0.4s
sed: 0.35s
bash循环: 15s

4. 常见问题与解决方案

4.1 为什么我的脚本在Windows换行符文件中失效？

Windows使用CRLF(\r\n)作为行结束符，而Linux使用LF(\n)。这可能导致^$无法匹配"空行"。

解决方案：

bash复制# 方法1：先转换文件格式
dos2unix nowcoder.txt

# 方法2：修改正则表达式
awk '/^\r?$/{print NR}' nowcoder.txt  # 兼容CRLF

4.2 如何忽略注释空行？

如果只想统计非注释部分的空行（如以#开头的行不算）：

bash复制awk '!/^#/ && /^$/{print NR}' nowcoder.txt

4.3 处理多个文件的情况

要处理多个文件并显示文件名：

bash复制awk '/^$/{print FILENAME":"NR}' *.txt

或者每个文件单独统计：

bash复制for file in *.txt; do
    echo "空行在 $file 中："
    awk '/^$/{print NR}' "$file"
done

4.4 内存不足问题处理

对于超大文件（几个GB），某些方法可能消耗较多内存。推荐：

bash复制# 使用流式处理，内存友好
awk '/^$/{print NR}' hugefile.txt

避免使用需要将整个文件读入内存的方法，如某些sed用法。

5. 实际应用案例

5.1 日志文件分析

假设有一个应用日志，每天零点会插入空行作为分割：

bash复制# 找出所有日期分割位置
awk '/^$/{print "分割点位于行：" NR}' app.log

# 统计每天日志行数
awk 'BEGIN{last=1} /^$/{print "行 "last"-"NR-1; last=NR+1} END{print "行 "last"-"NR}' app.log

5.2 配置文件验证

检查nginx配置文件中的空行是否合理：

bash复制# 统计各节之间的空行数
awk '/^[[:space:]]*server/{if(prev+1<NR)print "节间距："NR-prev-1; prev=NR}' nginx.conf

5.3 数据文件预处理

在导入CSV到数据库前检查数据完整性：

bash复制# 检查数据块是否被多余空行分隔
awk -F, 'NF==0{print "警告：空行位于 "NR; next} NF!=5{print "错误：字段数不对在行 "NR}' data.csv

6. 性能优化技巧

6.1 使用LC_ALL=C加速

对于纯ASCII文件，设置区域可以显著提高速度：

bash复制LC_ALL=C awk '/^$/{print NR}' largefile.txt

6.2 并行处理超大文件

使用GNU parallel工具分割处理：

bash复制parallel -a hugefile.txt --block 10M --pipe 'awk "/^$/{print NR+{#}"}' > all_empty_lines

6.3 使用mmap加速文件读取

某些awk实现支持内存映射：

bash复制awk --mmap '/^$/{print NR}' very_large_file.txt

6.4 避免不必要的子shell

在循环方案中，减少子shell调用：

bash复制#!/bin/bash
i=0
while IFS= read -r line; do  # 更高效的读取方式
    ((i++))
    [[ -z "$line" ]] && echo "$i"
done < nowcoder.txt

7. 扩展思路：空行的创造性应用

7.1 生成目录结构

利用空行位置生成简易目录：

bash复制awk '/^$/{print "第"++c"节开始于行："NR+1}' book.txt

7.2 代码质量检查

检查源代码中过长的无注释段落：

bash复制awk 'BEGIN{last=0} /^$/{if(NR-last>50)print "代码段过长："last"-"NR; last=NR}' source.py

7.3 文本分块处理

根据空行分割文本并处理：

bash复制awk 'BEGIN{RS=""; FS="\n"} {print "块"NR"有"NF"行"}' data.txt

已经到底了哦

精选内容

1 射频技术解析：从基础概念到5G应用实践 2 景观石采购指南：种类选择与厂家测评 3 PCA降维技术：高维数据可视化与特征提取实战 4 Oracle 18c分区表新特性与性能优化解析 5 遗传算法优化电动汽车充电调度实践 6 C++纯虚函数详解：从概念到高级应用 7 基于Pandas的博客质量评估系统设计与实现 8 电动汽车规模化接入电网的双层优化架构与实践 9 智能生鲜配送系统：SpringBoot+微信小程序实战解析 10 回溯算法与线性方程组在组合优化中的应用

最新内容

React Native收藏功能开发与优化实践

状态管理是现代前端开发的核心概念，通过合理分层（组件状态、全局状态、持久化存储）实现数据的高效流转。React Hooks和Zustand等技术方案提供了灵活的状态管理能力，在移动应用开发中尤为重要。以收藏功能为例，良好的实现能显著提升30%以上的用户留存率。技术实现上需要关注数据持久化（如使用AsyncStorage）、列表渲染优化（FlatList应用）和交互反馈设计等工程实践要点。本文以OpenHarmony平台上的React Native应用为例，详细解析了如何构建高性能的收藏模块，包括Tab切换逻辑、数据加载机制等具体方案，为跨平台应用开发提供参考。

AI学术争议仲裁系统：多维度评估与可信度分析

学术研究中常出现观点冲突的文献，传统人工评估存在效率与准确率瓶颈。基于知识图谱和自然语言处理技术，AI仲裁系统通过构建多维度评估矩阵（如样本量、方法论严谨性、数据可重复性等核心指标），结合动态权重算法实现自动化文献可信度分析。该系统特别适用于生物医学等高频出现争议结论的领域，能可视化展示论证链条中的强弱证据，为研究者提供客观的第三方评估参考。典型应用场景包括药物疗效争议分析、交叉学科方法论验证等，当前在生物医学领域的评估准确率达82%。关键技术涉及改进版BERT模型的结构化论证解析，以及融合学科特性的动态加权评分体系。

Drupal 11.3.0版本解析：权限管理与导航模块升级指南

内容管理系统(CMS)作为现代网站开发的核心组件，其权限管理和用户界面设计直接影响开发效率与安全性。Drupal作为主流开源CMS，通过基于角色的访问控制(RBAC)实现细粒度权限管理，11.3.0版本新增了节点发布状态独立权限，解决了内容审核与编辑权限分离的工程实践需求。在架构演进方面，Drupal持续向现代化OOP模式转型，11.3.0版本稳定了导航模块并支持OOP钩子，配合PHP 8.4的性能提升，为开发者提供了更高效的开发体验。这些改进特别适合需要严格权限控制的企业级应用和追求现代化管理界面的开发团队。

SSM框架实现企业抽奖系统：架构设计与核心算法

企业级应用开发中，SSM框架(Spring+SpringMVC+MyBatis)因其轻量级和高效性成为主流选择。该技术栈通过IoC容器和AOP机制实现松耦合，MyBatis简化了数据库操作，特别适合构建高并发Web系统。在抽奖系统这类需要保证公平性和实时性的场景中，关键技术包括加权随机算法确保奖品分配公平，Redis分布式锁解决并发冲突，以及WebSocket实现实时交互。通过Spring声明式事务管理保障数据一致性，结合MySQL索引优化提升查询性能，这类系统可广泛应用于企业年会、营销活动等场景。本文展示的抽奖管理系统采用SSM+Bootstrap+Vue技术组合，解决了传统抽奖方式效率低下、缺乏透明度等痛点。

Raft与区块链：分布式共识机制对比与应用

分布式系统中的共识机制是确保多个节点数据一致性的核心技术。Raft算法通过领导者选举、日志复制等机制实现强一致性，适用于数据库复制等高性能场景；区块链则通过PoW、PoS等算法在去中心化环境中达成最终一致性，支撑加密货币等应用。两种技术分别代表了中心化与去中心化的设计哲学，在金融科技、供应链管理等领域有广泛实践。理解Raft的选举超时和区块链的挖矿难度等核心参数，对构建可靠的分布式系统至关重要。随着混合架构的兴起，Raft与区块链的结合正在创造新的技术可能性。

Spring Scheduler与RabbitMQ延迟插件定时任务对比

定时任务是后端开发中的基础功能模块，其核心原理可分为轮询和事件驱动两种范式。轮询机制通过定期扫描任务队列实现，典型代表如Spring Scheduler，它基于线程池和cron表达式实现周期性任务调度。事件驱动机制则通过消息中间件实现，如RabbitMQ延迟插件，利用AMQP协议的消息队列特性实现精确触发。从技术价值看，轮询方案实现简单但存在性能瓶颈，适合低频任务；消息队列方案解耦性好且扩展性强，适合高并发场景。在实际应用中，电商订单超时处理等对时效性要求高的场景适合采用RabbitMQ方案，而数据统计等低频任务使用Spring Scheduler更为轻量。两种方案都需考虑分布式环境下的幂等性和可靠性保障机制。

沉孔磁铁充磁原理与极性判断指南

永磁材料在现代工业中扮演着关键角色，其中钕铁硼磁铁因其高磁能积成为主流选择。磁化过程通过强脉冲磁场统一磁畴方向，这一原理决定了所有永磁体的性能特性。在工程实践中，沉孔磁铁的特殊结构设计实现了齐平安装的需求，而其磁极方向完全取决于充磁工艺而非机械结构。针对常见的极性判断需求，高斯计检测和磁片测试法是最可靠的解决方案，这些方法在电机装配、磁吸夹具等场景中尤为重要。理解沉孔磁铁的充磁原理与检测技术，能够有效避免工业应用中因极性错误导致的质量问题。

航空航天领域大文件分片上传与断点续传技术实践

文件分片上传技术是现代Web应用中处理大文件传输的核心方案，其原理是将大文件分割为多个小块分别传输，最后在服务端合并。这种技术能有效解决传统单次上传存在的超时、内存溢出等问题，特别适用于航空航天、三维建模等需要传输GB级文件的场景。通过结合断点续传机制，即使在网络不稳定的信创环境下，也能确保飞机/卫星模型等关键数据的可靠传输。本文基于Vue3+PHP技术栈，详细解析了动态分片策略、Web Worker哈希计算、国产CPU适配等工程实践，为国产化环境中的大文件传输提供了经过验证的解决方案。

以太坊透明代理合约：原理、实现与安全实践

智能合约可升级性是区块链开发中的关键技术，透明代理模式通过分离代理合约与逻辑合约，实现了在不改变合约地址的情况下升级业务逻辑。其核心原理是利用delegatecall将调用转发到逻辑合约，同时保持状态存储的一致性。这种设计既保留了区块链的不可篡改性，又满足了业务迭代需求，特别适用于DeFi、NFT等需要持续演进的应用场景。根据EIP-1967标准，透明代理采用固定存储槽管理关键数据，有效避免了存储冲突问题。在实际开发中，需要注意初始化安全、存储布局兼容性等关键点，OpenZeppelin等成熟库提供了可靠实现。合理使用透明代理可以显著提升智能合约系统的可维护性和安全性。

金融风控中的机器学习：车贷违约预测实战解析

机器学习在金融风控领域的应用正变得越来越重要，特别是在车贷违约预测这样的高风险场景中。通过特征工程、模型调优和业务规则融合，可以显著提升预测准确率。本文以印度车贷数据为例，详细解析了从数据预处理到模型部署的全流程实战经验，包括如何处理非数值特征编码、时间特征工程、多重共线性等常见问题。特别探讨了XGBoost模型在样本不平衡场景下的调优策略，以及如何监控特征漂移确保模型稳定性。对于金融科技从业者而言，这些技术方案在信用评分、风险定价等场景都具有重要参考价值。