别再只用交叉熵了！试试用PyTorch给BERT微调加上监督对比学习（SCL），小样本和带噪数据都稳了

小软观察

用监督对比学习增强BERT微调：应对小样本与噪声数据的实战指南

在自然语言处理领域，BERT等预训练模型的微调已经成为文本分类任务的标准流程。然而，当面对小样本数据或带噪声标签时，传统的交叉熵损失函数往往表现不佳。本文将介绍一种简单却强大的改进方案——在标准微调流程中引入监督对比学习(Supervised Contrastive Learning, SCL)，通过PyTorch实战演示如何显著提升模型在挑战性场景下的表现。

1. 为什么交叉熵在特定场景会"翻车"？

交叉熵损失是分类任务中最常用的目标函数，但它存在几个固有缺陷：

对噪声标签敏感：交叉熵会强制模型对每个样本给出高置信度预测，当标签错误时，这种"硬"惩罚会导致模型学习到错误的模式
忽略类内关系：只关注样本与决策边界的关系，不鼓励同类样本在特征空间中的聚集
小样本泛化差：当某些类别的训练样本很少时，决策边界容易过拟合

python复制# 传统交叉熵损失实现
criterion = nn.CrossEntropyLoss()
outputs = model(inputs)
loss = criterion(outputs, labels)

相比之下，监督对比学习通过显式优化特征空间结构来缓解这些问题：

类内紧凑性：拉近同类样本的特征距离
类间分离性：推远不同类样本的特征距离
噪声容忍：不强制单个样本的硬预测，而是关注整体分布

提示：SCL特别适合以下场景：标注成本高导致样本少、众包标注质量不稳定、需要模型具备强泛化能力。

2. 监督对比学习的PyTorch实现

2.1 核心算法解析

监督对比学习的损失函数可以表示为：

$$
\mathcal{L}{SCL} = -\frac{1}{N}\sum^N \frac{1}{|P(i)|} \sum_{p\in P(i)} \log \frac{\exp(z_i \cdot z_p / \tau)}{\sum_{a\in A(i)} \exp(z_i \cdot z_a / \tau)}
$$

其中：

$P(i)$是样本$i$的同类别样本集合（正样本）
$A(i)$是除$i$外所有样本集合
$\tau$是温度参数，控制分布尖锐程度

python复制import torch
import torch.nn.functional as F

def supervised_contrastive_loss(features, labels, temperature=0.1):
    """
    计算监督对比学习损失
    Args:
        features: 归一化后的特征向量 [batch_size, feature_dim]
        labels: 样本标签 [batch_size]
        temperature: 温度参数
    """
    device = features.device
    batch_size = features.shape[0]
    
    # 计算相似度矩阵
    similarity_matrix = torch.matmul(features, features.T)  # [batch_size, batch_size]
    
    # 创建正样本掩码
    labels = labels.contiguous().view(-1, 1)
    mask = torch.eq(labels, labels.T).float().to(device)  # [batch_size, batch_size]
    
    # 排除自身
    self_mask = torch.eye(batch_size, dtype=torch.float32).to(device)
    pos_mask = mask - self_mask
    
    # 计算对比损失分子
    exp_sim = torch.exp(similarity_matrix / temperature)
    log_prob = torch.log(exp_sim * pos_mask / (exp_sim.sum(dim=1, keepdim=True) - exp_sim * self_mask))
    
    # 平均正样本对数概率
    loss = - (pos_mask * log_prob).sum(1) / pos_mask.sum(1)
    return loss.mean()

2.2 与交叉熵的联合训练

实际应用中，我们通常将SCL与交叉熵结合使用：

python复制class BertWithSCL(nn.Module):
    def __init__(self, bert_model, num_classes):
        super().__init__()
        self.bert = bert_model
        self.classifier = nn.Linear(bert_model.config.hidden_size, num_classes)
        
    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids, attention_mask=attention_mask)
        pooled_output = outputs.pooler_output
        logits = self.classifier(pooled_output)
        
        # 归一化特征用于对比学习
        features = F.normalize(pooled_output, p=2, dim=1)
        return logits, features

# 训练循环示例
model = BertWithSCL(bert_model, num_classes=num_classes)
ce_loss = nn.CrossEntropyLoss()
optimizer = torch.optim.AdamW(model.parameters(), lr=5e-5)

for batch in train_loader:
    input_ids, attention_mask, labels = batch
    logits, features = model(input_ids, attention_mask)
    
    # 组合损失
    loss_ce = ce_loss(logits, labels)
    loss_scl = supervised_contrastive_loss(features, labels)
    total_loss = loss_ce + 0.5 * loss_scl  # 权重可调
    
    optimizer.zero_grad()
    total_loss.backward()
    optimizer.step()