Linux sort命令详解：从基础到高级文本排序技巧-代码聚汇网

Linux sort命令详解：从基础到高级文本排序技巧

GreedyAbyss

1. sort命令概述

sort命令是Linux系统中最基础也最强大的文本处理工具之一，它专门用于对文本文件的行进行排序操作。作为一名Linux系统管理员，我几乎每天都会用到这个命令来处理各种日志文件、数据报表和配置文档。

sort命令最核心的功能就是对输入的行进行排序输出，默认按照字典序排列。但它的能力远不止于此，通过不同的参数组合，我们可以实现：

数值排序（而不仅仅是字符串比较）
指定排序字段（处理表格数据时特别有用）
控制排序顺序（升序或降序）
去除重复行
合并已排序文件

在实际工作中，我经常用它来处理Apache日志分析、数据库导出文件整理、配置文件管理等任务。掌握sort命令的各种用法，能让你在命令行下的数据处理效率提升数倍。

2. sort命令基础用法

2.1 基本排序操作

最简单的sort用法就是直接对文件内容进行排序：

bash复制sort filename.txt

这个命令会读取filename.txt文件的所有行，按照字典序排序后输出到屏幕。如果想直接修改原文件，可以配合重定向：

bash复制sort filename.txt > sorted_file.txt

注意：直接重定向到原文件会导致文件内容清空！安全做法是先输出到临时文件，确认无误后再覆盖原文件。

2.2 常用参数解析

sort命令有几十个参数，这里介绍最常用的几个：

-r：反向排序（降序）

bash复制sort -r filename.txt

-n：按数值排序（而不是字典序）

bash复制sort -n numbers.txt

-u：去除重复行

bash复制sort -u duplicates.txt

-o：指定输出文件

bash复制sort input.txt -o output.txt

-k：指定排序字段（在处理表格数据时特别有用）

bash复制sort -k 2 data.csv  # 按第二列排序

3. 高级排序技巧

3.1 多字段排序

处理复杂数据时，经常需要按多个字段排序。比如一个员工数据文件，想先按部门排序，部门相同的再按工资排序：

bash复制sort -k 3,3 -k 5n,5 employees.txt

这里-k 3,3表示只按第三列（部门）排序，-k 5n,5表示按第五列（工资）数值排序。逗号后的数字表示排序范围结束的列。

3.2 处理特殊字符

当文件中包含特殊字符（如制表符、非打印字符）时，可能需要指定字段分隔符：

bash复制sort -t $'\t' -k 2 data.tsv  # 使用制表符作为分隔符

对于包含非ASCII字符的文件，可能需要设置本地化环境：

bash复制LC_ALL=C sort international.txt

3.3 内存与性能优化

处理大文件时，sort可能会消耗大量内存。可以通过以下参数优化：

-S size：指定使用的内存大小

bash复制sort -S 50% hugefile.txt  # 使用50%可用内存

-T tempdir：指定临时文件目录

bash复制sort -T /mnt/tmp bigfile.txt

--parallel=N：使用多线程（需要GNU sort）

bash复制sort --parallel=4 largefile.txt

4. 实战应用案例

4.1 日志分析

分析Apache访问日志，找出访问量最大的IP：

bash复制cut -d ' ' -f 1 access.log | sort | uniq -c | sort -nr | head -10

这个管道组合：

cut提取IP地址（第一列）
sort对IP排序
uniq -c统计每个IP出现次数
sort -nr按访问量降序排序
head显示前10条

4.2 数据清洗

处理CSV文件，按第二列数值降序排列，并去除重复行：

bash复制sort -t ',' -k 2nr -u data.csv > cleaned.csv

4.3 配置文件管理

合并多个已排序的配置文件，并保持排序：

bash复制sort -m config1.txt config2.txt config3.txt > combined.txt

-m参数用于合并已排序文件，比直接cat后再sort效率更高。

5. 常见问题与解决方案

5.1 排序结果不符合预期

可能原因：

没有使用-n参数进行数值排序
字段分隔符指定错误
本地化设置影响排序顺序

解决方案：

bash复制LC_ALL=C sort -t ':' -k 3n /etc/passwd

5.2 处理大文件时内存不足

错误信息：

code复制sort: memory exhausted