Linux文本处理利器：uniq命令详解与应用-代码聚汇网

Linux文本处理利器：uniq命令详解与应用

wanchuanlong

1. 为什么每个Linux用户都应该掌握uniq命令

作为在Linux系统下处理文本数据的瑞士军刀，uniq命令的价值往往被严重低估。记得刚入行时，我曾花了整整三天手工清理一个包含50万行日志的文本文件，直到同事告诉我："用sort|uniq组合，三秒就能搞定"。那一刻我才意识到，高效使用命令行工具对工作效率的颠覆性提升。

uniq的核心能力是处理相邻重复行，但它的实际应用远不止简单的去重。结合不同参数选项，我们可以实现：

快速统计日志中错误出现的频率
提取数据集中的唯一值
分析用户访问模式
清洗实验数据
生成报告摘要

2. uniq命令核心功能解析

2.1 基础工作原理

uniq命令工作时会逐行比较当前行与下一行内容，当发现相邻两行完全相同时，根据参数决定保留或丢弃重复行。这个机制带来一个关键特性：只处理相邻重复行。这也是为什么通常需要先使用sort命令排序，使所有相同行相邻。

重要提示：直接对未排序文件使用uniq会导致非相邻的重复行无法被检测到，这是新手最常见的错误之一。

2.2 参数深度解读

2.2.1 计数模式(-c)

bash复制sort file.txt | uniq -c

这会在每行前添加出现次数统计，输出格式为：

code复制   3 相同的行内容
   1 另一行内容

注意统计数字的格式化（右对齐，至少占6字符宽度），这在编写处理脚本时需要特别注意。

2.2.2 显示重复行(-d)

仅输出出现次数>1的行，非常适合快速定位重复项。结合-c参数可以知道具体重复次数：

bash复制sort file.txt | uniq -cd

2.2.3 显示唯一行(-u)

与-d相反，只输出没有重复的行。在数据清洗时特别有用。

2.2.4 字段忽略功能(-f)

跳过前N个字段（由空格或TAB分隔）的比较。例如：

bash复制uniq -f 2 data.txt

会忽略每行前两列进行比较。这在处理固定格式日志时非常实用。

2.2.5 字符忽略(-s)与比较长度限制(-w)

-s跳过前N个字符，-w只比较前N个字符。这两个参数可以精确控制比较范围：

bash复制uniq -s 10 -w 5 access.log

表示跳过每行前10字符，只比较接下来的5字符。

3. 高级应用场景与实战技巧

3.1 大数据集处理优化

当处理GB级文本时，简单的sort|uniq组合可能耗尽内存。这时可以采用：

bash复制sort -T /big_tmp_dir -S 2G file.txt | uniq > result.txt

其中：

-T指定临时文件目录
-S设置缓冲区大小（这里分配2GB）
使用>重定向而非管道可以降低内存压力

3.2 复杂日志分析案例

分析Nginx访问日志，统计不同状态码出现次数：

bash复制awk '{print $9}' access.log | sort | uniq -c | sort -nr

这个管道：

先用awk提取第9字段（状态码）
sort排序使相同状态码相邻
uniq -c统计每个状态码出现次数
最后按统计数降序排列

3.3 数据清洗实战

清洗CSV文件中重复记录，保留唯一值：

bash复制sort -t',' -k1,1 data.csv | uniq > cleaned.csv

这里：

-t','指定逗号为分隔符
-k1,1表示只按第一列排序
保持CSV格式不变的情况下去除重复行

4. 性能调优与边界情况处理

4.1 处理包含特殊字符的行

当文本包含空行或不可见字符时，可以预处理：

bash复制sed '/^$/d' file.txt | tr -d '\r' | sort | uniq

这个组合：

sed删除空行
tr移除Windows换行符(\r)
然后执行标准去重流程

4.2 多字段复合去重

需要基于多个字段组合去重时：

bash复制awk '{print $1":"$3}' data.txt | sort | uniq

通过awk先创建复合键（用冒号连接不同字段），再进行去重。

4.3 内存优化技巧

对于超大型文件，可以使用GNU parallel分块处理：

bash复制cat huge.log | parallel --pipe --block 100M sort | uniq

将文件分成100MB的块并行处理，最后统一去重。

5. 常见陷阱与解决方案

5.1 本地化排序问题

在非C本地化环境下，排序结果可能与预期不同。强制使用C本地化：

bash复制LC_ALL=C sort file.txt | uniq

5.2 稳定性问题

某些sort实现不稳定，可能导致相同键值的行顺序变化。添加-s参数：

bash复制sort -s -k1 file.txt | uniq

-s确保相同键值时保留原始顺序。

5.3 字段分隔符陷阱

默认字段分隔是空白字符（空格/TAB），处理其他分隔符需谨慎。建议显式指定：

bash复制sort -t':' -k2 file.txt | uniq -f 1

6. 生产环境最佳实践

6.1 自动化脚本模板

bash复制#!/bin/bash
# 用法：./dedup.sh 输入文件 输出文件 [临时目录]

INPUT=$1
OUTPUT=$2
TMPDIR=${3:-/tmp}

# 设置合适的缓冲区大小(根据可用内存调整)
SORT_BUFFER_SIZE="1G"

# 处理流程
LC_ALL=C sort -T "${TMPDIR}" -S "${SORT_BUFFER_SIZE}" "${INPUT}" \
  | uniq > "${OUTPUT}"

# 验证行数变化
ORIG_LINES=$(wc -l < "${INPUT}")
NEW_LINES=$(wc -l < "${OUTPUT}")
echo "原始行数: ${ORIG_LINES}, 去重后: ${NEW_LINES}"
echo "重复行数: $((ORIG_LINES - NEW_LINES))"

6.2 性能监控指标

处理大型文件时，监控这些指标：

内存使用量（避免OOM）
临时目录空间（sort需要约原文件3倍空间）
CPU利用率（sort是多线程的）
I/O等待时间（磁盘性能瓶颈）

6.3 替代方案对比

当uniq性能不足时，可以考虑：

awk去重：awk '!a[$0]++' file.txt
Perl单行：perl -ne 'print unless $seen{$_}++' file.txt
数据库导入：使用SQL的DISTINCT

每种方案各有优劣，需要根据数据特征选择。

掌握uniq命令的精髓不在于记住所有参数，而在于理解其设计哲学：UNIX工具的单功能原则。通过管道组合简单工具完成复杂任务，这才是Linux文本处理的真正艺术。在实际工作中，我建议将常用uniq组合保存为脚本别名，比如我的~/.bashrc中就有：

bash复制alias countlines="sort | uniq -c | sort -nr"
alias showdups="sort | uniq -d"

这些小技巧能让你在终端前的工作效率提升数倍。