决策树算法对比：ID3、C4.5与CART详解

ONE实验室

1. 决策树三兄弟：ID3、C4.5、CART 深度解析

决策树作为机器学习中最基础也最实用的算法之一，其核心思想是通过一系列的判断规则对数据进行分类或回归预测。在实际应用中，我们经常会遇到三种经典的决策树算法：ID3、C4.5和CART。这三种算法虽然都属于决策树家族，但在特征选择标准、分支方式等方面各有特点。

1.1 决策树的基本概念

决策树是一种树形结构的分类器，由节点和有向边组成。其中：

内部节点：表示一个特征或属性
分支：表示特征的某个取值
叶子节点：表示一个类别或回归值

决策树的构建过程本质上是一个递归地将数据集划分为更小子集的过程。每次划分时，算法都会选择一个最优特征作为划分标准，使得划分后的子集尽可能"纯净"。

提示：决策树的构建过程可以类比为人类做决策时的思考过程。比如在判断是否外出时，我们可能会先看天气（晴天/雨天），如果是雨天再看是否有伞，这种层层递进的判断方式就是决策树的思维模式。

1.2 决策树的构建流程

一个完整的决策树构建过程通常包括以下步骤：

特征选择：从当前节点的特征集合中选择一个最优特征作为划分标准
树的生成：根据选定的特征将数据集划分为若干子集，并为每个子集生成子节点
递归构建：对每个子节点重复上述过程，直到满足停止条件
剪枝处理：对生成的树进行剪枝，防止过拟合

其中，特征选择是决策树构建的核心环节，不同的决策树算法主要区别就在于它们使用的特征选择标准不同。

2. ID3决策树：基于信息增益的特征选择

2.1 信息熵的概念与计算

信息熵是ID3算法的理论基础，由香农在信息论中提出。它用来衡量一个随机变量的不确定性。在决策树中，我们用信息熵来衡量数据集的"纯度"。

信息熵的公式为：

code复制H(D) = -Σ(p_i * log₂p_i)

其中p_i表示第i类样本在数据集D中所占的比例。

2.1.1 信息熵的直观理解

让我们通过几个例子来理解信息熵：

完全纯净的数据集：
假设一个数据集中所有样本都属于同一类别，那么：
- p₁ = 1, p₂ = p₃ = ... = 0
- H(D) = -(1*log₂1 + 0 + ... + 0) = 0
  这表示数据集完全没有不确定性。
完全混乱的数据集：
假设一个数据集有两个类别，每个类别占比50%：
- p₁ = 0.5, p₂ = 0.5
- H(D) = -(0.5log₂0.5 + 0.5log₂0.5) = 1
  这表示数据集的不确定性最大。
中间状态的数据集：
假设一个数据集有三个类别，占比分别为{0.5, 0.3, 0.2}：
- H(D) ≈ -(0.5log₂0.5 + 0.3log₂0.3 + 0.2*log₂0.2) ≈ 1.485

从这些例子可以看出，信息熵确实能够很好地反映数据集的"纯度"。

2.2 信息增益的计算与应用

信息增益是ID3算法用来选择最优划分特征的指标，它表示使用某个特征进行划分后，数据集不确定性减少的程度。

信息增益的计算公式为：

code复制Gain(D,A) = H(D) - H(D|A)

其中H(D|A)是特征A的条件熵，表示在已知特征A的条件下数据集D的不确定性。

2.2.1 信息增益的计算示例

让我们通过一个具体例子来计算信息增益。假设有以下数据集：

样本	天气	温度	湿度	风力	是否打球
1	晴	高	高	弱	否
2	晴	高	高	强	否
3	阴	高	高	弱	是
4	雨	中	高	弱	是
5	雨	低	正常	弱	是
6	雨	低	正常	强	否
7	阴	低	正常	强	是
8	晴	中	高	弱	否
9	晴	低	正常	弱	是
10	雨	中	正常	弱	是
11	晴	中	正常	强	是
12	阴	中	高	强	是
13	阴	高	正常	弱	是
14	雨	中	高	强	否

首先计算整个数据集的信息熵H(D)：
- 正例(是)：9个
- 反例(否)：5个
- H(D) = -(9/14)*log₂(9/14) - (5/14)*log₂(5/14) ≈ 0.940
计算以"天气"为划分特征的信息增益：
- 晴：5个样本(2是，3否)
  H(晴) = -(2/5)*log₂(2/5) - (3/5)*log₂(3/5) ≈ 0.971
- 阴：4个样本(4是，0否)
  H(阴) = 0
- 雨：5个样本(3是，2否)
  H(雨) = -(3/5)*log₂(3/5) - (2/5)*log₂(2/5) ≈ 0.971
- H(D|天气) = (5/14)*0.971 + (4/14)*0 + (5/14)*0.971 ≈ 0.693
- Gain(D,天气) = 0.940 - 0.693 = 0.247
类似地可以计算其他特征的信息增益：
- Gain(D,温度) ≈ 0.029
- Gain(D,湿度) ≈ 0.152
- Gain(D,风力) ≈ 0.048

从计算结果可以看出，"天气"特征的信息增益最大，因此ID3算法会选择"天气"作为第一个划分特征。

2.3 ID3算法的优缺点分析

2.3.1 优点

算法简单直观，易于理解
构建的决策树模型具有很好的可解释性
能够处理离散型特征
对数据预处理要求不高

2.3.2 缺点

只能处理离散型特征，无法直接处理连续型特征
倾向于选择取值较多的特征，可能导致过拟合
没有剪枝策略，容易生成复杂的决策树
对缺失值处理不够鲁棒

注意：ID3算法对取值较多的特征有偏好，这是因为当特征的取值很多时，按照该特征划分后每个子集往往会变得很"纯净"，从而获得较大的信息增益。但这种划分可能并不具有很好的泛化能力。

3. C4.5决策树：改进的信息增益率

3.1 信息增益率的引入

为了解决ID3算法倾向于选择取值较多特征的问题，C4.5算法引入了信息增益率(Gain Ratio)作为特征选择标准。信息增益率在信息增益的基础上，增加了一个关于特征本身固有值的惩罚项。

信息增益率的计算公式为：

code复制GainRatio(D,A) = Gain(D,A) / IV(A)

其中IV(A)是特征A的固有值(Intrinsic Value)，计算公式为：

code复制IV(A) = -Σ(|D_v|/|D| * log₂(|D_v|/|D|))

其中D_v表示特征A取第v个值的样本子集。

3.2 信息增益率的计算示例

继续使用前面的天气数据集，我们计算"天气"特征的增益率：

已经计算出Gain(D,天气)=0.247
计算IV(天气):
- 晴：5/14
- 阴：4/14
- 雨：5/14
- IV(天气) = -[(5/14)*log₂(5/14) + (4/14)*log₂(4/14) + (5/14)*log₂(5/14)] ≈ 1.577
GainRatio(D,天气) = 0.247 / 1.577 ≈ 0.157

类似地可以计算其他特征的增益率：

GainRatio(D,温度) ≈ 0.029 / 1.557 ≈ 0.019
GainRatio(D,湿度) ≈ 0.152 / 1.000 ≈ 0.152
GainRatio(D,风力) ≈ 0.048 / 0.985 ≈ 0.049

从计算结果可以看出，虽然"天气"的信息增益最大，但经过增益率调整后，"湿度"特征的表现更好。

3.3 C4.5算法的改进与特点

3.3.1 主要改进

使用信息增益率代替信息增益，克服了偏向取值较多特征的问题
能够处理连续型特征（通过寻找最佳分割点）
能够处理缺失值
引入了剪枝策略，防止过拟合

3.3.2 连续特征处理方法

对于连续型特征，C4.5的处理步骤如下：

将该特征的所有取值排序
计算每两个相邻取值的中间值作为候选分割点
对每个候选分割点，将数据集分为两部分
计算以该分割点划分的信息增益率
选择信息增益率最大的分割点作为该特征的最佳划分点

3.3.3 缺失值处理方法

C4.5采用概率权重的方式处理缺失值：

计算特征A的每个取值在非缺失样本中的比例
将缺失值样本按比例分配到各个子节点
在计算信息增益率时，只考虑非缺失样本

3.4 C4.5算法的优缺点

3.4.1 优点

解决了ID3偏向多值特征的问题
能够处理连续型和离散型特征
对缺失值有较好的鲁棒性
通过剪枝提高了泛化能力

3.4.2 缺点

计算信息增益率时需要对每个特征计算IV值，计算复杂度较高
生成的决策树可能仍然比较复杂
对大规模数据集处理效率不高

4. CART决策树：基尼指数与二叉树

4.1 基尼指数的概念

CART(Classification And Regression Tree)算法使用基尼指数(Gini Index)作为特征选择标准。基尼指数反映了从数据集中随机抽取两个样本，其类别标记不一致的概率。

基尼指数的计算公式为：

code复制Gini(D) = 1 - Σ(p_i²)

其中p_i是第i类样本在数据集D中的比例。

基尼指数越小，表示数据集的纯度越高。与信息熵类似，基尼指数也是衡量数据集不纯度的指标。

4.2 基尼指数的计算示例

继续使用天气数据集，计算基尼指数：

整个数据集的基尼指数：
Gini(D) = 1 - [(9/14)² + (5/14)²] ≈ 0.459
以"天气"为划分特征的基尼指数：
- 晴：5个样本(2是，3否)
  Gini(晴) = 1 - [(2/5)² + (3/5)²] = 0.48
- 阴：4个样本(4是，0否)
  Gini(阴) = 0
- 雨：5个样本(3是，2否)
  Gini(雨) = 1 - [(3/5)² + (2/5)²] = 0.48
- 加权基尼指数 = (5/14)*0.48 + (4/14)*0 + (5/14)*0.48 ≈ 0.343
类似可以计算其他特征的基尼指数：
- Gini(D,温度) ≈ 0.439
- Gini(D,湿度) ≈ 0.367
- Gini(D,风力) ≈ 0.428