Java Set集合体系解析：HashSet、LinkedHashSet与TreeSet-代码聚汇网

Java Set集合体系解析：HashSet、LinkedHashSet与TreeSet

AngstEssenSeele

1. Java Set 集合体系深度解析

在Java集合框架中，Set接口代表了一个不允许重复元素的集合。作为日常开发中最常用的集合类型之一，Set及其实现类（HashSet、LinkedHashSet、TreeSet）在数据处理、去重、排序等场景中发挥着重要作用。理解它们的底层实现原理，对于写出高效、健壮的Java代码至关重要。

Set的核心特性可以概括为三点：元素唯一性（通过hashCode和equals保证）、无索引访问（不能通过下标获取元素）、部分实现类无序（HashSet）。这些特性使得Set非常适合需要保证元素唯一性的场景，比如用户ID集合、商品SKU去重等。

java复制Set<String> languages = new HashSet<>();
languages.add("Java");
languages.add("Python");
languages.add("Java"); // 重复元素不会被添加

System.out.println(languages); // 输出：[Java, Python]

2. Set 集合体系结构详解

2.1 整体继承关系

Java Set接口继承自Collection接口，主要实现类包括：

code复制Collection
    │
    └── Set
         │
         ├── HashSet
         │     └── LinkedHashSet
         │
         └── SortedSet
                │
                └── TreeSet

2.2 各实现类对比

实现类	底层数据结构	元素顺序	允许null	时间复杂度	线程安全
HashSet	HashMap	无序	是	O(1)	否
LinkedHashSet	LinkedHashMap	插入顺序	是	O(1)	否
TreeSet	红黑树	自然排序	否	O(log n)	否

提示：在多线程环境下使用Set，应该使用Collections.synchronizedSet()进行包装，或者考虑使用ConcurrentHashMap.newKeySet()。

3. HashSet 底层实现原理

3.1 基于HashMap的实现

HashSet的底层实际上完全依赖于HashMap。从JDK源码可以看到：

java复制public class HashSet<E> {
    private transient HashMap<E,Object> map;
    private static final Object PRESENT = new Object();
    
    public boolean add(E e) {
        return map.put(e, PRESENT) == null;
    }
}

每个添加到HashSet的元素实际上作为key存储在HashMap中，而value则统一使用一个静态的PRESENT对象。这种设计非常巧妙，既复用了HashMap的去重能力，又节省了存储value的空间。

3.2 数据结构细节

HashSet底层采用"数组+链表+红黑树"的结构：

初始默认容量为16，负载因子0.75
当链表长度超过8且数组长度≥64时，链表转为红黑树
当红黑树节点数小于6时，退化为链表

这种结构在大多数情况下能提供O(1)的时间复杂度，最坏情况下（所有元素hash冲突）退化为O(log n)。

3.3 去重机制详解

HashSet的去重依赖于hashCode()和equals()两个方法：

添加元素时，先计算hashCode确定存储位置
如果该位置为空，直接存入
如果不为空，则调用equals()比较是否相同
相同则不存入，不同则处理冲突（链表或红黑树）

java复制// 错误示例：未重写hashCode和equals
class BadStudent {
    int id;
    String name;
    
    // 缺少hashCode和equals重写
}

Set<BadStudent> set = new HashSet<>();
set.add(new BadStudent(1, "Alice"));
set.add(new BadStudent(1, "Alice")); // 会被认为是不同对象

正确做法：

java复制class GoodStudent {
    int id;
    String name;
    
    @Override
    public int hashCode() {
        return Objects.hash(id, name);
    }
    
    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (!(o instanceof GoodStudent)) return false;
        GoodStudent that = (GoodStudent) o;
        return id == that.id && Objects.equals(name, that.name);
    }
}

4. LinkedHashSet 实现原理

4.1 保持插入顺序的机制

LinkedHashSet继承自HashSet，但通过维护一个双向链表来记录元素的插入顺序：

java复制public class LinkedHashSet<E> extends HashSet<E> {
    // 底层使用LinkedHashMap
}

其内部结构可以表示为：

code复制Hash表节点：
+------+------+------+
| hash | key  | next |
+------+------+------+
         |
         v
双向链表：
+------+      +------+      +------+
| prev | <--> | curr | <--> | next |
+------+      +------+      +------+

4.2 性能特点

由于需要维护双向链表，LinkedHashSet在插入和删除时会有轻微的性能损耗（约10-20%），但遍历性能比HashSet更好，因为它可以直接按链表顺序访问，不需要遍历整个哈希表。

java复制Set<String> orderedSet = new LinkedHashSet<>();
orderedSet.add("Java");
orderedSet.add("Python");
orderedSet.add("C++");

// 遍历顺序保证与插入顺序一致
orderedSet.forEach(System.out::println);
// 输出：
// Java
// Python
// C++

5. TreeSet 排序机制剖析

5.1 红黑树数据结构

TreeSet基于TreeMap实现，底层使用红黑树（一种自平衡的二叉查找树）存储元素。红黑树具有以下特性：

每个节点是红色或黑色
根节点是黑色
红色节点的子节点必须是黑色
从任一节点到其每个叶子的路径包含相同数量的黑色节点

这些特性保证了树的基本平衡，使得最坏情况下的操作时间复杂度为O(log n)。

5.2 两种排序方式

5.2.1 自然排序（Comparable）

元素类实现Comparable接口：

java复制class Student implements Comparable<Student> {
    int age;
    String name;
    
    @Override
    public int compareTo(Student other) {
        int nameCompare = this.name.compareTo(other.name);
        return nameCompare != 0 ? nameCompare : Integer.compare(this.age, other.age);
    }
}

// 使用示例
Set<Student> students = new TreeSet<>();

5.2.2 定制排序（Comparator）

通过构造方法传入Comparator：

java复制Set<Student> students = new TreeSet<>(
    Comparator.comparing(Student::getName)
             .thenComparingInt(Student::getAge)
);

注意：TreeSet不允许插入null元素，因为null无法参与比较。同时，所有元素必须是可比较的，否则会抛出ClassCastException。

6. 性能对比与选型建议

6.1 各实现类性能对比

操作	HashSet	LinkedHashSet	TreeSet
添加	O(1)	O(1)	O(log n)
删除	O(1)	O(1)	O(log n)
查找	O(1)	O(1)	O(log n)
遍历	O(n)	O(n)	O(n)
内存占用	低	中	高

6.2 使用场景建议

HashSet：最通用的Set实现，适用于大多数只需要保证元素唯一性的场景
LinkedHashSet：需要保持元素插入顺序的场景，如最近访问记录
TreeSet：需要元素自动排序的场景，如排行榜、范围查询

java复制// 高频访问数据缓存示例（保持访问顺序）
Set<String> recentItems = new LinkedHashSet<>(100);
void accessItem(String item) {
    recentItems.remove(item);
    recentItems.add(item);
    if (recentItems.size() > 100) {
        Iterator<String> it = recentItems.iterator();
        it.next();
        it.remove();
    }
}

7. 高级特性与最佳实践

7.1 初始化容量优化

对于已知元素数量的场景，合理设置初始容量可以避免扩容带来的性能损耗：

java复制// 预计有1000个元素，负载因子0.75
Set<String> optimizedSet = new HashSet<>(1333); // 1000/0.75 ≈ 1333

7.2 不可变Set

Java 9+提供了方便的工厂方法创建不可变Set：

java复制Set<String> immutableSet = Set.of("Java", "Python", "C++");
// 尝试修改会抛出UnsupportedOperationException
immutableSet.add("JavaScript");

7.3 并行处理

对于大型Set，可以使用并行流进行处理：

java复制Set<String> largeSet = ...;
largeSet.parallelStream()
        .filter(s -> s.length() > 3)
        .forEach(System.out::println);

8. 常见问题排查

8.1 内存泄漏问题

当Set中存储的对象修改了参与hashCode计算的字段时，会导致无法正确找到和删除元素：

java复制Set<Student> students = new HashSet<>();
Student s = new Student(1, "Alice");
students.add(s);

s.name = "Bob"; // 修改了参与hashCode的字段
students.contains(s); // 可能返回false
students.remove(s); // 可能删除失败

解决方案：

将关键字段设为final
修改后先remove再add

8.2 性能下降问题

当HashSet的hashCode实现不佳导致大量冲突时，性能会显著下降：

java复制class BadHash {
    @Override
    public int hashCode() {
        return 42; // 所有实例hashCode相同
    }
}

Set<BadHash> badSet = new HashSet<>(); // 性能退化为链表

解决方案：

确保hashCode具有良好的离散性
考虑使用Objects.hash()辅助计算

8.3 并发修改异常

在遍历过程中修改Set会导致ConcurrentModificationException：

java复制Set<String> set = new HashSet<>(Arrays.asList("A", "B", "C"));
for (String s : set) {
    if (s.equals("B")) {
        set.remove(s); // 抛出异常
    }
}

解决方案：

使用Iterator的remove方法
使用并发集合如ConcurrentHashMap.newKeySet()
先收集要删除的元素，遍历结束后再批量删除

9. 实际应用案例

9.1 数据去重

java复制List<String> duplicatedList = ...;
Set<String> uniqueSet = new HashSet<>(duplicatedList);
List<String> deduplicated = new ArrayList<>(uniqueSet);

9.2 集合运算

java复制Set<Integer> set1 = new HashSet<>(Arrays.asList(1, 2, 3));
Set<Integer> set2 = new HashSet<>(Arrays.asList(2, 3, 4));

// 并集
Set<Integer> union = new HashSet<>(set1);
union.addAll(set2);

// 交集
Set<Integer> intersection = new HashSet<>(set1);
intersection.retainAll(set2);

// 差集
Set<Integer> difference = new HashSet<>(set1);
difference.removeAll(set2);

9.3 最近最少使用(LRU)缓存

java复制class LRUCache<K> extends LinkedHashSet<K> {
    private final int maxSize;
    
    public LRUCache(int maxSize) {
        super(maxSize, 0.75f, true); // 访问顺序模式
        this.maxSize = maxSize;
    }
    
    @Override
    public boolean add(K e) {
        boolean added = super.add(e);
        if (size() > maxSize) {
            Iterator<K> it = iterator();
            it.next();
            it.remove();
        }
        return added;
    }
}

10. 扩展思考

10.1 为什么Set没有get方法？

Set设计理念是关注元素是否存在，而非通过索引获取元素。如果需要检查存在性，使用contains()方法；如果需要获取特定元素，可以考虑：

使用迭代器
转换为List后按索引获取
使用流式操作过滤

java复制Optional<String> result = set.stream()
                            .filter(s -> s.startsWith("A"))
                            .findFirst();

10.2 自定义Set实现

在某些特殊场景下，可能需要自定义Set实现。例如，一个基于布隆过滤器的概率性Set：

java复制class BloomFilterSet<E> implements Set<E> {
    private final BloomFilter<E> filter;
    private final Set<E> fallback;
    
    public boolean add(E e) {
        if (filter.mightContain(e)) {
            return fallback.add(e);
        }
        filter.put(e);
        return true;
    }
    
    public boolean contains(Object o) {
        return filter.mightContain(o) && fallback.contains(o);
    }
    // 其他方法实现...
}

10.3 与其他集合的互操作

Set与其他集合类型的转换：

java复制// List转Set去重
List<String> list = ...;
Set<String> set = new HashSet<>(list);

// Set转有序List
Set<Integer> numbers = ...;
List<Integer> ordered = new ArrayList<>(new TreeSet<>(numbers));

// 数组转Set
String[] array = ...;
Set<String> fromArray = Stream.of(array).collect(Collectors.toSet());

在实际项目中，我经常遇到开发人员混淆Set和List的使用场景。记住：当需要保证元素唯一性时使用Set，当需要保留重复元素和顺序时使用List。对于既需要唯一性又需要保持顺序的情况，LinkedHashSet是最佳选择。而对于需要频繁范围查询或自动排序的场景，TreeSet提供了出色的性能表现。

Java Set集合体系解析：HashSet、LinkedHashSet与TreeSet

1. Java Set 集合体系深度解析

2. Set 集合体系结构详解

2.1 整体继承关系

2.2 各实现类对比

3. HashSet 底层实现原理

3.1 基于HashMap的实现

3.2 数据结构细节

3.3 去重机制详解

4. LinkedHashSet 实现原理

4.1 保持插入顺序的机制

4.2 性能特点

5. TreeSet 排序机制剖析

5.1 红黑树数据结构

5.2 两种排序方式

5.2.1 自然排序（Comparable）

5.2.2 定制排序（Comparator）

6. 性能对比与选型建议

6.1 各实现类性能对比

6.2 使用场景建议

7. 高级特性与最佳实践

7.1 初始化容量优化

7.2 不可变Set

7.3 并行处理

8. 常见问题排查

8.1 内存泄漏问题

8.2 性能下降问题

8.3 并发修改异常

9. 实际应用案例

9.1 数据去重

9.2 集合运算

9.3 最近最少使用(LRU)缓存

10. 扩展思考

10.1 为什么Set没有get方法？

10.2 自定义Set实现

10.3 与其他集合的互操作

内容推荐