信息论入门：从“不确定性”到聚类评估，一步步理解NMI公式

RocketLab

信息论入门：从“不确定性”到聚类评估，一步步理解NMI公式

想象你面前有一堆颜色混杂的积木，有人让你把它们分成几组。完成后，你怎么知道自己的分类和"正确"答案有多接近？这就是聚类评估要解决的问题。在机器学习中，**归一化互信息（NMI）**就像一位公正的裁判，用数学语言告诉我们分类结果与真实情况的匹配程度。本文将用最直观的方式，带你从信息论基础出发，亲手计算这个看似复杂的指标。

1. 信息论基础：从“不确定性”开始

理解NMI需要先掌握三个核心概念：熵、条件熵和互信息。这些概念都围绕着"不确定性"展开。

1.1 熵：不确定性的度量

熵（H）量化了系统的不确定性。举个例子，抛一枚公平硬币时：

python复制import math

# 公平硬币的熵
p = 0.5
H = - (p * math.log2(p) + (1-p) * math.log2(1-p))
print(H)  # 输出1.0

这个1.0表示每次抛硬币产生1比特的不确定性。如果是偏斜硬币（比如正面概率0.9），熵会变小：

正面概率	熵值（比特）
0.5	1.0
0.9	0.469
0.1	0.469

提示：熵在概率均匀分布时最大，随着分布变得不均衡而减小

1.2 条件熵：知道一部分信息后的剩余不确定性

条件熵H(Y|C)表示在已知聚类结果C后，真实类别Y仍然存在的不确定性。就像知道一个人的星座后，对他性格的猜测仍然有一定不确定性。

2. 互信息：两个分类系统的关联程度

互信息I(Y;C) = H(Y) - H(Y|C)揭示了真实类别和聚类结果之间的关联。它表示知道聚类结果后，真实类别不确定性减少的量。

2.1 互信息的直观理解

假设：

H(Y)（原始不确定性）像不知道天气时出门是否带伞的困惑
H(Y|C)（条件熵）像看了天气预报后仍然需要带伞的不确定性
互信息就是天气预报帮你消除的困惑量

3. 手工计算NMI：一个完整案例

让我们用10个点的简单例子演示完整计算流程。真实类别Y将点分为A(4个)、B(6个)，聚类结果C分为Cluster1(5个)、Cluster2(5个)。

3.1 构建列联表

首先统计各类别分布：

	Cluster1	Cluster2	总计
类别A	3	1	4
类别B	2	4	6
总计	5	5	10

3.2 计算各项熵值

H(Y)计算：
- P(A) = 4/10 = 0.4
- P(B) = 6/10 = 0.6
- H(Y) = - (0.4log2(0.4) + 0.6log2(0.6)) ≈ 0.971
H(C)计算：
- P(C1) = 5/10 = 0.5
- P(C2) = 5/10 = 0.5
- H(C) = - (0.5*log2(0.5)*2) = 1.0
条件熵H(Y|C)：
- H(Y|C1) = - (3/5log2(3/5) + 2/5log2(2/5)) ≈ 0.971
- H(Y|C2) = - (1/5log2(1/5) + 4/5log2(4/5)) ≈ 0.722
- H(Y|C) = (5/10)*0.971 + (5/10)*0.722 ≈ 0.846

3.3 计算互信息和NMI

互信息I(Y;C) = H(Y) - H(Y|C) ≈ 0.971 - 0.846 = 0.125
NMI = 2I(Y;C)/(H(Y)+H(C)) = 20.125/(0.971+1.0) ≈ 0.127

4. NMI的深层理解与应用技巧

4.1 为什么需要归一化？

原始互信息I(Y;C)有个缺陷：当聚类结果把每个点都分成单独一类时，H(C)会很大，导致I(Y;C)也变大。归一化解决了这个问题：

python复制def nmi(H_Y, H_C, I_YC):
    return 2 * I_YC / (H_Y + H_C)

4.2 NMI vs 其他聚类指标

指标	优点	缺点
NMI	不受标签排列影响，范围[0,1]	计算复杂度较高
ACC	直观易懂	依赖标签对应关系
ARI	对随机聚类惩罚更重	解释性稍差

4.3 实际应用中的注意事项

当NMI接近0时，意味着聚类结果与真实类别几乎无关
NMI=1表示完美匹配（考虑排列组合）
对于不平衡数据集，NMI比准确率更能反映真实情况

注意：虽然sklearn等库提供了现成的NMI计算函数，但理解计算过程能帮助更好地解读结果

5. 从理论到实践：NMI的Python实现

虽然我们强调手工计算的重要性，但实际项目中可以使用优化实现：

python复制from sklearn.metrics import normalized_mutual_info_score
import numpy as np

# 真实标签和聚类结果
y_true = [0,0,0,0,1,1,1,1,1,1]
y_pred = [0,0,0,1,1,1,1,0,0,0]

# 计算NMI
nmi_score = normalized_mutual_info_score(y_true, y_pred)
print(f"NMI值为: {nmi_score:.4f}")

这个结果应该与我们手工计算的值接近。当遇到不一致时，建议：

检查对数底数（sklearn默认使用自然对数）
验证概率估计方法（sklearn默认采用频率统计）
确认是否有平滑处理

理解这些实现细节，能帮助我们在关键时刻调试模型评估过程。

已经到底了哦

精选内容

1 从零构建机械臂模型：基于MATLAB rvctools的运动学仿真实践 2 PySpark实战：从数据合并到学生成绩分析的完整作业解析 3 告别驱动烦恼：手把手教你用XDMA IP核在Vivado 2019.1上快速搭建PCIE X4通信链路 4 Linux scatterlist 从原理到实战：构建高效DMA数据通道 5 【GEE实战】Landsat9地表温度反演：从数据空洞处理到ST_B10算法应用详解 6 从后序与中序到先序：二叉树遍历转换的递归艺术与边界掌控 7 从毕业设计到实战：手把手教你用SolidWorks复现一个220V电动扳手（含谐波齿轮传动分析）8 避坑指南：MAX30102心率血氧传感器与STM32实战，解决数据跳动和初始化失败 9 保姆级教程：用GMT6（Generic Mapping Tools）绘制并自定义你的第一个震源机制沙滩球 10 【GIS实战】高德地图API轨迹绘制：从静态数据到动态交互的实现

信息论入门：从“不确定性”到聚类评估，一步步理解NMI公式

信息论入门：从“不确定性”到聚类评估，一步步理解NMI公式

1. 信息论基础：从“不确定性”开始

1.1 熵：不确定性的度量

1.2 条件熵：知道一部分信息后的剩余不确定性

2. 互信息：两个分类系统的关联程度

2.1 互信息的直观理解

3. 手工计算NMI：一个完整案例

3.1 构建列联表

3.2 计算各项熵值

3.3 计算互信息和NMI

4. NMI的深层理解与应用技巧

4.1 为什么需要归一化？

4.2 NMI vs 其他聚类指标

4.3 实际应用中的注意事项

5. 从理论到实践：NMI的Python实现

内容推荐