机器学习过拟合问题与正则化技术详解

天驰联盟

1. 过拟合：机器学习中的"死记硬背"陷阱

记得我第一次训练神经网络时，那种兴奋感至今难忘。在训练集上准确率达到了惊人的99.9%，我几乎要跳起来庆祝了。但当我把这个"完美"模型应用到新数据上时，结果却像一盆冷水浇下来——准确率只有可怜的50%，和随机猜测没什么两样。这就是典型的过拟合现象：模型记住了训练数据中的所有细节（包括噪声），却没能学到真正的规律。

1.1 过拟合的本质

过拟合就像是一个只会死记硬背的学生。想象一下，有个学生为了应付数学考试，把课本上的每道例题和答案都背得滚瓜烂熟。但如果考试中出现一道稍微变化的新题，他就完全不会做了。我们的模型也是如此——当它过于复杂（参数太多）或训练数据太少时，就会倾向于"记住"而不是"理解"数据。

从数学角度看，过拟合发生时，模型的训练误差和测试误差之间会出现巨大差距：

code复制训练误差 ≈ 0
测试误差 ≫ 训练误差

1.2 为什么过拟合如此普遍？

在深度学习领域，过拟合几乎无处不在，主要原因有三：

模型复杂度爆炸：现代神经网络可能有数百万甚至数十亿个参数，这种巨大的容量使得模型可以轻易记住训练数据。
数据获取成本高：高质量的标注数据往往难以获取，特别是在医疗、金融等专业领域。
噪声不可避免：真实世界的数据总是包含各种噪声和异常值，模型很容易把这些也当作规律来学习。

1.3 过拟合的直观判断

在实际项目中，我总结了一些快速判断过拟合的方法：

训练集表现远好于验证集：比如训练准确率95%而验证准确率只有60%
学习曲线发散：随着训练进行，训练损失持续下降但验证损失开始上升
参数值异常大：检查模型权重，发现某些参数值特别大（这是模型在"强行记忆"的信号）

提示：在Python中，可以使用model.coef_查看线性模型的权重，或model.get_weights()查看神经网络的权重。

2. 偏差-方差分解：诊断模型问题的"听诊器"

2.1 理解偏差和方差

在机器学习中，我们常用偏差-方差分解来分析模型的泛化误差。这个框架就像医生的听诊器，能帮助我们准确诊断模型的问题所在。

偏差（Bias）：反映了模型预测值与真实值之间的差距。高偏差意味着模型对数据的拟合不足（underfitting）。

方差（Variance）：反映了模型对训练数据变化的敏感程度。高方差意味着模型对训练数据过度拟合（overfitting）。

数学上，泛化误差可以分解为：

code复制泛化误差 = 偏差² + 方差 + 不可约误差

其中不可约误差是数据本身固有的噪声，无法通过模型改进来消除。

2.2 四种典型情况分析

根据偏差和方差的高低组合，我们可以得到四种典型情况：

情况	偏差	方差	表现	解决方案
理想模型	低	低	训练和测试表现都好	保持现状
欠拟合	高	低	训练和测试表现都差	增加模型复杂度，减少正则化
过拟合	低	高	训练好但测试差	增加正则化，简化模型，获取更多数据
糟糕模型	高	高	训练和测试表现都差	重新设计模型架构

2.3 实用诊断流程

在实际项目中，我使用以下流程来诊断模型问题：

python复制def diagnose_model(train_score, val_score, threshold=0.15):
    gap = train_score - val_score
    
    if train_score < 0.8:  # 假设0.8是可接受的最低分数
        if gap < threshold:
            print("高偏差问题：模型欠拟合")
            return "underfitting"
        else:
            print("高偏差高方差：模型架构可能有问题")
            return "bad_architecture"
    else:
        if gap > threshold:
            print("高方差问题：模型过拟合")
            return "overfitting"
        else:
            print("模型表现良好")
            return "good"

这个简单的诊断工具可以帮助我们快速判断模型的主要问题所在。

3. L1/L2正则化：给模型戴上"紧箍咒"

3.1 正则化的核心思想

正则化的概念源于我们对奥卡姆剃刀原理的应用——"如无必要，勿增实体"。在机器学习中，这意味着我们应该偏好简单的模型，除非复杂模型能带来显著的性能提升。

L1和L2正则化通过在损失函数中添加惩罚项来实现这一目标：

L2正则化（Ridge回归）：

code复制L = 原始损失 + λ * Σ(权重²)

L1正则化（Lasso回归）：

code复制L = 原始损失 + λ * Σ|权重|

其中λ是控制正则化强度的超参数。

3.2 L1与L2的几何解释

理解L1和L2区别的最好方式是通过几何图形：

L2正则化：在二维空间中，它的约束区域是一个圆形。最优解往往会落在圆周上，使得所有参数都较小但不为零。
L1正则化：它的约束区域是一个菱形。最优解常常会落在菱形的顶点上，导致某些参数恰好为零。

L1和L2正则化的几何解释

3.3 实际应用中的选择策略

在我的项目经验中，选择L1还是L2通常取决于具体需求：

使用L2当：
- 所有特征都可能与输出相关
- 需要权重较小但不强制为零
- 深度学习中的默认选择（权重衰减）
使用L1当：
- 怀疑许多特征无关或冗余
- 需要特征选择，简化模型
- 希望得到稀疏解以提升解释性

注意：在神经网络中，L2正则化通常被称为"权重衰减"，这是深度学习中最常用的正则化方法。

3.4 Python实现对比

让我们通过一个实际的Python例子来看看L1和L2的效果差异：

python复制from sklearn.linear_model import Lasso, Ridge
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# 生成数据：100个样本，10个特征，其中只有3个是真正有用的
X, y = make_regression(n_samples=100, n_features=10, n_informative=3, noise=0.5, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 训练不同模型
models = {
    "Linear": LinearRegression(),
    "L2 (λ=0.1)": Ridge(alpha=0.1),
    "L1 (λ=0.1)": Lasso(alpha=0.1)
}

for name, model in models.items():
    model.fit(X_train, y_train)
    train_score = model.score(X_train, y_train)
    test_score = model.score(X_test, y_test)
    print(f"{name}:")
    print(f"  训练R²: {train_score:.3f}")
    print(f"  测试R²: {test_score:.3f}")
    print(f"  系数: {model.coef_}")
    print()

输出结果可能类似于：

code复制Linear:
  训练R²: 0.999
  测试R²: 0.615
  系数: [ 2.3 45.1 -0.5 78.2 1.2 -3.4 0.8 2.1 -1.5 0.3]

L2 (λ=0.1):
  训练R²: 0.998
  测试R²: 0.742
  系数: [ 1.8 39.2 -0.4 65.3 1.0 -2.8 0.7 1.8 -1.2 0.2]

L1 (λ=0.1):
  训练R²: 0.992
  测试R²: 0.851
  系数: [ 0.0 38.7 0.0 62.4 0.0 -1.2 0.0 0.0 -0.8 0.0]

可以看到，L1正则化成功地将不重要的特征的系数压缩为零，实现了特征选择，同时也获得了最好的测试性能。

4. Dropout：神经网络的"随机失活"策略

4.1 Dropout的创新理念

Dropout是由Geoffrey Hinton团队在2012年提出的一种革命性正则化技术。它的核心思想简单却强大：在训练过程中随机"丢弃"（即暂时移除）一部分神经元。

想象一下，你正在准备一场重要的考试。传统学习方法就像让全班同学一起学习所有内容。而Dropout则像是随机挑选一部分同学学习部分内容，每次都不一样。最终，通过这种"集体智慧"，整个班级会对知识有更全面、更鲁棒的理解。

4.2 Dropout的工作原理

在技术实现上，Dropout包括以下几个关键步骤：

训练阶段：
- 对每个训练样本，以概率p随机选择要保留的神经元
- 被丢弃的神经元的输出设为0
- 保留的神经元的输出要乘以1/(1-p)（缩放）
测试阶段：
- 使用全部神经元
- 不需要进行缩放（因为训练时已经考虑了期望值）

python复制# PyTorch中的Dropout实现示例
import torch
import torch.nn as nn

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(784, 512)
        self.dropout = nn.Dropout(p=0.5)  # 50%的丢弃率
        self.fc2 = nn.Linear(512, 10)
    
    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.dropout(x)  # 只在训练时起作用
        x = self.fc2(x)
        return x

4.3 Dropout的超参数设置

在实践中，我发现以下Dropout率设置通常效果良好：

网络层类型	推荐Dropout率	原因
输入层	0.1-0.2	保留更多原始信息
隐藏层	0.3-0.5	平衡正则化和表达能力
输出层	通常不使用	保持预测稳定性

4.4 Dropout的实践经验

经过多个项目的实践，我总结了以下Dropout使用技巧：

与批归一化(BatchNorm)配合使用时：由于两者都有正则化效果，可以适当降低Dropout率。
在大型网络中：Dropout效果通常更明显，因为大型网络更容易过拟合。
训练时间：由于Dropout引入了随机性，通常需要更长的训练时间才能收敛。
可视化理解：可以使用以下代码观察Dropout的效果：

python复制import matplotlib.pyplot as plt

def plot_dropout_effect(p=0.5, n_samples=100):
    x = torch.ones(n_samples)
    dropout = nn.Dropout(p)
    plt.plot(x.numpy(), 'b-', label='原始')
    plt.plot(dropout(x).numpy(), 'r.', label='Dropout应用后')
    plt.legend()
    plt.title(f"Dropout (p={p})效果演示")
    plt.show()

plot_dropout_effect(p=0.7)

5. Early Stopping：适时停止的艺术

5.1 Early Stopping的直觉理解

Early Stopping可能是最简单的正则化技术，但它的效果却常常出人意料地好。它的核心思想是：在验证集性能开始下降时停止训练，防止模型过度拟合训练数据。

这就像煮意大利面时定时器的角色——煮得太久，面条会变得太软；煮得时间不够，又会太硬。我们需要在恰到好处的时候关火。

5.2 实现细节与参数选择

一个完整的Early Stopping实现需要考虑以下几个关键点：

监控指标：通常使用验证集上的损失函数值，但也可以是准确率等其他指标。
耐心值(patience)：允许验证指标不改善的epoch数。太小会导致过早停止，太大则失去意义。
最佳模型保存：需要保存验证指标最佳时的模型参数。

以下是PyTorch中的实现示例：

python复制from copy import deepcopy

class EarlyStopper:
    def __init__(self, patience=5, delta=0):
        self.patience = patience
        self.delta = delta  # 视为改善的最小变化量
        self.counter = 0
        self.best_score = None
        self.best_model = None
    
    def __call__(self, val_loss, model):
        if self.best_score is None:
            self.best_score = val_loss
            self.best_model = deepcopy(model.state_dict())
        elif val_loss > self.best_score + self.delta:
            self.counter += 1
            if self.counter >= self.patience:
                return True  # 停止训练
        else:
            self.best_score = val_loss
            self.best_model = deepcopy(model.state_dict())
            self.counter = 0
        return False

5.3 Early Stopping的优缺点分析

优点：

实现简单，计算成本低
不需要修改模型架构或损失函数
可以与其他正则化方法结合使用

缺点：

需要单独的验证集
在训练初期可能不稳定，导致过早停止
需要仔细调整耐心值参数

5.4 实际应用建议

根据我的项目经验，使用Early Stopping时应注意：

数据集划分：确保验证集具有代表性，最好使用分层抽样。
学习率调度：配合学习率衰减使用效果更好，如ReduceLROnPlateau。
监控曲线：始终绘制训练和验证损失曲线，直观判断停止点。
恢复训练：有时在早停后，可以减小学习率继续训练（称为"热启动"）。

6. 数据增强：从有限数据中创造无限价值

6.1 数据增强的哲学

数据增强基于一个深刻的见解：我们可以通过对现有数据进行合理的变换来生成新的训练样本，而无需收集更多数据。这就像一位画家通过不同的角度、光线和构图，从同一个静物中创造出多幅独特的画作。

6.2 不同数据类型的增强技术

6.2.1 图像数据增强

图像数据是最适合增强的数据类型之一。常用的增强技术包括：

几何变换：
- 旋转（-30°到30°）
- 平移（水平和垂直）
- 缩放（90%-110%）
- 翻转（水平和垂直）
颜色变换：
- 亮度调整
- 对比度调整
- 饱和度调整
- 添加噪声
高级技术：
- 随机擦除（Cutout）
- 混合样本（Mixup）
- 风格迁移

python复制# 使用Albumentations库实现图像增强
import albumentations as A

transform = A.Compose([
    A.Rotate(limit=30, p=0.5),
    A.HorizontalFlip(p=0.5),
    A.RandomBrightnessContrast(p=0.2),
    A.GaussNoise(var_limit=(10.0, 50.0), p=0.3)
])

6.2.2 文本数据增强

文本数据的增强更具挑战性，因为需要保持语义不变。常用方法包括：

词汇级：
- 同义词替换
- 随机插入/删除/交换
- 反译（翻译成其他语言再译回）
句子级：
- 回译（Back Translation）
- 语法树变换
- 上下文替换
文档级：
- 段落重排
- 摘要生成
- 风格转换

6.2.3 数值数据增强

对于表格数据或时间序列，可以考虑：

添加噪声：高斯噪声、均匀噪声
插值法：在相似样本间插值生成新样本
SMOTE：针对类别不平衡的过采样技术

6.3 数据增强的注意事项

在实践中，我发现以下原则至关重要：

增强必须保持标签有效性：例如，数字"6"旋转180°会变成"9"，这样的增强是不合理的。
领域适应性：医疗影像的增强策略与自然图像不同，需要领域知识。
增强强度控制：过强的增强可能破坏原始数据的语义。
测试时禁用：增强只应用于训练阶段，测试时应使用原始数据。
性能考量：增强通常在数据加载时实时进行，可能成为训练瓶颈，可以考虑预处理或使用更快的库（如Albumentations）。

7. 交叉验证：更可靠的模型评估

7.1 为什么需要交叉验证？

传统的简单训练-测试分割有一个主要缺点：评估结果高度依赖于具体的数据划分方式。交叉验证通过多次不同的数据划分来提供更可靠的性能估计。

这就像让学生参加多场不同命题但难度相当的考试，而不是只参加一场考试，从而更全面地评估其真实水平。

7.2 K折交叉验证详解

K折交叉验证是最常用的交叉验证方法，步骤如下：

将数据集随机分成K个大小相似的互斥子集（称为"折"）
每次使用K-1折作为训练集，剩下的1折作为验证集
重复K次，每次使用不同的验证集
最终性能是K次验证结果的平均

python复制from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=100)
scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')

print(f"交叉验证准确率: {scores.mean():.3f} (±{scores.std():.3f})")

7.3 交叉验证的变体

根据数据特点，可以选择不同的交叉验证策略：

分层K折：保持每个折中类别比例与整体一致（适用于分类问题）
分组K折：确保同一组数据不会同时出现在训练和验证集中
时间序列交叉验证：考虑时间顺序，只用过去数据预测未来
留一法(LOO)：极端情况，K等于样本数（计算成本高）

7.4 交叉验证的最佳实践

基于多个项目的经验，我总结了以下实践建议：

K值选择：通常5或10折，小数据集可用更高K值
随机性控制：设置随机种子确保结果可复现
数据预处理：应在每次划分后进行，避免数据泄露
超参数调优：可以嵌套使用交叉验证（外层评估，内层调参）
计算成本：K折需要训练K个模型，大型数据集可能不适用
不平衡数据：使用分层交叉验证确保每折类别分布一致

8. 正则化技术的组合策略

8.1 技术协同效应

不同的正则化技术往往可以互补，组合使用通常能获得更好的效果。就像医生治疗疾病时，常常会采用多种药物组合的"鸡尾酒疗法"。

在我的项目经验中，最常见的有效组合是：

轻度L2正则化：控制权重幅度
Dropout：防止神经元共适应
Early Stopping：防止过度训练
数据增强：增加数据多样性

8.2 组合策略示例

根据过拟合的严重程度，我通常采用以下策略：

8.2.1 轻度过拟合

L2正则化（λ=0.001）
轻度数据增强
Early Stopping（patience=10）

8.2.2 中度过拟合

L2正则化（λ=0.01）
Dropout（p=0.3-0.5）
中等强度数据增强
Early Stopping（patience=5）

8.2.3 重度过拟合

简化模型架构
L2正则化（λ=0.1）或组合L1/L2（Elastic Net）
Dropout（p=0.5）
强数据增强
Early Stopping（patience=3）
考虑迁移学习

8.3 超参数调优顺序

当组合多种正则化技术时，建议按以下顺序调整超参数：

首先确定合适的模型架构（层数、每层大小）
调整学习率和优化器参数
加入Early Stopping（相对独立）
调整L2正则化强度
调整Dropout率
优化数据增强策略

提示：使用网格搜索或随机搜索时，可以先在较大范围内粗略搜索，然后在有希望的区域内精细搜索。

8.4 监控与评估

组合使用多种正则化技术时，监控变得更加重要。我通常会：

绘制训练/验证损失曲线
跟踪权重分布（直方图）
监控激活模式（是否有很多神经元始终不激活）
定期在测试集上评估（但不用于任何决策）

python复制def plot_training_history(history):
    plt.figure(figsize=(12, 4))
    
    plt.subplot(1, 2, 1)
    plt.plot(history['train_loss'], label='Train')
    plt.plot(history['val_loss'], label='Validation')
    plt.title('Loss Curve')
    plt.legend()
    
    plt.subplot(1, 2, 2)
    plt.plot(history['train_acc'], label='Train')
    plt.plot(history['val_acc'], label='Validation')
    plt.title('Accuracy Curve')
    plt.legend()
    
    plt.show()

9. 实际案例：图像分类中的正则化应用

9.1 项目背景

我曾参与一个医学图像分类项目，任务是从皮肤镜图像中识别黑色素瘤。挑战在于：

标注数据有限（约5000张图像）
类别不平衡（正例仅占10%）
图像质量参差不齐

初始模型（ResNet50）在训练集上达到98%准确率，但测试集只有65%，表现出严重过拟合。

9.2 正则化方案设计

我们采用了多层次的正则化策略：

数据层面：

分层抽样确保数据划分平衡

综合性图像增强：

python复制train_transform = A.Compose([
    A.Rotate(limit=45, p=0.7),
    A.HorizontalFlip(p=0.5),
    A.VerticalFlip(p=0.5),
    A.RandomBrightnessContrast(p=0.5),
    A.GaussNoise(var_limit=(10, 50), p=0.3),
    A.CoarseDropout(max_holes=8, max_height=32, max_width=32, p=0.5)
])

模型层面：
- 使用预训练的ResNet50（迁移学习）
- 在顶层全连接层添加Dropout（p=0.5）
- L2权重衰减（λ=0.0001）
训练过程：
- Early Stopping（patience=8）
- 学习率衰减（当验证损失停滞时减半）

9.3 实施效果

经过系统性的正则化后，模型表现：

指标	初始模型	正则化后
训练准确率	98%	88%
验证准确率	65%	83%
测试准确率	63%	82%
推理速度	15ms/img	16ms/img

虽然训练准确率下降了，但模型的实际应用性能显著提升。更重要的是，模型对噪声和干扰的鲁棒性大大增强。

9.4 关键经验总结

从这个项目中，我总结了以下宝贵经验：

组合策略优于单一方法：没有任何单一正则化技术能解决所有过拟合问题。
领域知识至关重要：医学图像增强需要专业知识，简单的旋转/翻转可能不够。
监控指标要全面：除了准确率，还要关注召回率、特异度等临床相关指标。
计算成本权衡：数据增强和交叉验证会增加计算负担，需要合理规划资源。
可解释性检查：使用Grad-CAM等工具验证模型是否关注了正确的图像区域。

10. 常见误区与解决方案

10.1 误区一：正则化越强越好

问题：有些开发者认为正则化强度越大越好，导致模型欠拟合。

案例：在一个文本分类项目中，团队设置了极高的L2惩罚（λ=1.0），结果模型变得过于简单，无法捕捉文本中的复杂模式。

解决方案：

从较小值开始（如λ=0.001）
基于验证集性能逐步调整
监控权重分布，确保没有过度压缩

10.2 误区二：忽视数据层面的正则化

问题：过于关注模型架构的正则化，而忽视数据增强等数据层面的方法。

案例：图像分类项目中只使用Dropout和L2，没有进行图像增强，导致模型对微小变化敏感。

解决方案：

优先考虑数据增强
确保增强策略符合领域特性
可视化增强后的样本，检查合理性

10.3 误区三：在测试集上早停

问题：使用测试集（而不是验证集）进行Early Stopping决策，导致测试集性能估计偏乐观。

解决方案：

严格区分验证集和测试集
只在验证集上监控早停条件
测试集仅用于最终评估

10.4 误区四：忽略实现细节

问题：Dropout实现时忘记缩放激活值，或L2正则化在优化器中重复应用。

案例：在PyTorch中同时设置weight_decay（实现L2）和在损失函数中手动添加L2项，导致双重惩罚。

解决方案：

深入理解每种正则化的实现机制
使用标准库实现（如torch.optim的weight_decay）
编写单元测试验证实现正确性

10.5 误区五：不考虑计算成本

问题：使用过于复杂的交叉验证或数据增强策略，导致训练时间不可接受。

解决方案：

对于大型数据集，考虑使用部分数据或减少K值
使用高效的数据增强库（如Albumentations）
考虑数据预增强（对小型数据集）

11. 前沿发展与未来趋势

11.1 新型正则化技术

近年来，研究者提出了许多创新的正则化方法：

DropConnect：随机丢弃权重连接而非神经元
Shake-Shake：在残差分支间随机混合
Manifold Mixup：在隐藏层进行插值
Adversarial Training：使用对抗样本增强鲁棒性

11.2 自监督学习中的隐式正则化

自监督学习通过设计预测任务从数据本身生成标签，这种预训练方式提供了强大的隐式正则化：

对比学习（如SimCLR）鼓励对变换保持不变的表示
掩码预测（如BERT）学习上下文感知的特征

11.3 正则化与模型压缩

正则化技术与模型压缩方法的结合日益紧密：

L1正则化可产生稀疏模型，便于剪枝
知识蒸馏可以看作一种教师模型引导的正则化
量化感知训练引入的噪声也有正则化效果

11.4 自动化正则化

AutoML趋势下，正则化超参数的自动优化成为可能：

学习正则化强度：将λ作为可学习参数
自适应Dropout率：根据神经元重要性调整丢弃概率
神经架构搜索：自动发现具有良好归纳偏置的架构

12. 实用建议与工具推荐

12.1 正则化技术选择指南

基于项目复杂度和数据规模，我推荐以下技术组合：

项目类型	推荐正则化组合	备注
小数据集	强数据增强 + Dropout + Early Stopping	优先考虑数据层面
中型数据	L2 + 中度Dropout + 早停	平衡计算成本
大数据集	轻度L2 + 可选Dropout	数据本身提供正则
迁移学习	冻结层 + 顶层Dropout	微调阶段谨慎正则

12.2 超参数调优工具

Optuna：支持分布式调优，可视化功能强大

python复制import optuna

def objective(trial):
    lr = trial.suggest_float('lr', 1e-5, 1e-2, log=True)
    dropout = trial.suggest_float('dropout', 0.1, 0.5)
    l2 = trial.suggest_float('l2', 1e-6, 1e-2, log=True)
    
    model = build_model(dropout=dropout, l2=l2)
    optimizer = Adam(lr=lr)
    
    return train_and_evaluate(model, optimizer)

study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=100)

Weights & Biases：优秀的实验跟踪工具，支持超参数搜索
TensorBoard：内置于TensorFlow，方便监控训练过程

12.3 模型诊断工具

Netron：可视化模型架构，分析参数分布
Captum（PyTorch）或tf-explain（TensorFlow）：模型解释工具
Yellowbrick：可视化学习曲线、特征重要性等

12.4 代码质量检查

建议在项目中添加以下检查：

验证集性能是否显著低于训练集
权重矩阵的范数是否过大
是否存在大量始终不激活的神经元
增强后的样本是否保持语义合理性

python复制def check_model_health(model, val_loader):
    # 检查训练/验证差距
    train_acc = evaluate(model, train_loader)
    val_acc = evaluate(model, val_loader)
    gap = train_acc - val_acc
    
    # 检查权重
    weights = [p for n, p in model.named_parameters() if 'weight' in n]
    weight_norms = [w.norm().item() for w in weights]
    
    # 检查激活稀疏性
    activation_stats = get_activation_stats(model, val_loader)
    
    return {
        'train_val_gap': gap,
        'weight_norms': weight_norms,
        'activation_sparsity': activation_stats
    }