PyTorch实现简单二分类任务：深度学习入门实践-代码聚汇网

PyTorch实现简单二分类任务：深度学习入门实践

黑河市all

1. 项目概述

今天我想分享一个非常有意思的深度学习入门实践项目 - 通过PyTorch框架实现一个简单的二分类任务。这个项目的特别之处在于，我们完全自己构造了一个简单的"找规律"任务，非常适合刚接触深度学习的朋友们理解模型训练的基本流程。

这个任务的核心规律很简单：给定一个5维向量，如果第一个元素大于第五个元素，就标记为正样本(1)，否则标记为负样本(0)。虽然看起来简单，但这个项目涵盖了数据生成、模型构建、训练评估、预测应用等完整流程，是理解深度学习基础概念的绝佳案例。

我选择这个项目作为教学案例有几个原因：首先，它足够简单，初学者可以完全理解每个环节；其次，它又包含了深度学习的核心要素；最后，通过这个项目可以直观地看到模型是如何"学习"规律的。接下来，我会详细拆解每个实现环节。

2. 数据准备与生成

2.1 样本生成逻辑

在这个项目中，我们需要自己生成训练数据。这是理解机器学习的一个很好的起点 - 在实际应用中，数据准备往往是最耗时的工作之一。

python复制def build_sample():
    x = np.random.random(5)
    x = np.around(x, 3)
    if x[0] > x[4]:
        return x, 1
    else:
        return x, 2

这段代码做了以下几件事：

生成一个包含5个随机数的数组，每个数在[0,1)区间
将数值四舍五入到小数点后3位
比较第一个和第五个数的大小关系
根据比较结果返回对应的标签

注意：在实际项目中，我们通常会对数据进行更复杂的预处理，比如归一化、标准化等。但在这个简单示例中，随机数本身已经在[0,1)区间，所以不需要额外处理。

2.2 数据集构建

单个样本生成后，我们需要构建完整的数据集：

python复制def build_dataset(total_sample_num):
    X = []
    Y = []
    for i in range(total_sample_num):
        x, y = build_sample()
        X.append(x)
        Y.append([y])
    return torch.FloatTensor(X), torch.FloatTensor(Y)

这里有几个关键点：

我们使用列表暂存样本，最后统一转换为PyTorch张量
标签Y被包装成二维形式([[y]])，这是为了与模型输出维度匹配
使用torch.FloatTensor确保数据类型正确

我设置了5000个样本作为训练集，这个数量对于这个简单任务来说已经足够。在实际项目中，数据量需要根据任务复杂度来决定。

3. 模型设计与实现

3.1 模型架构

我们使用一个非常简单的线性模型：

python复制class TorchModel(nn.Module):
    def __init__(self, input_size):
        super(TorchModel, self).__init__()
        self.linear = nn.Linear(input_size, 1)
        self.activation = torch.sigmoid
        self.loss = nn.functional.mse_loss

这个模型包含三个核心组件：

线性层(nn.Linear)：将5维输入映射到1维输出
Sigmoid激活函数：将输出压缩到(0,1)区间，表示概率
MSE损失函数：衡量预测值与真实值的差异

为什么选择MSE而不是交叉熵？对于这个简单的二分类任务，MSE已经足够。但在更复杂的分类任务中，交叉熵通常是更好的选择。

3.2 前向传播

python复制def forward(self, x, y=None):
    x = self.linear(x)
    y_pred = self.activation(x)
    if y is not None:
        return self.loss(y_pred, y)
    else:
        return y_pred

前向传播的逻辑很清晰：

输入通过线性层
应用Sigmoid激活
如果有标签y，计算并返回损失；否则返回预测值

这种设计模式在PyTorch中很常见，它允许同一个方法在训练和预测时都能使用。

4. 训练过程详解

4.1 训练配置

python复制epoch_num = 20
batch_size = 20
learning_rate = 0.001
optim = torch.optim.Adam(model.parameters(), lr=learning_rate)

这里有几个重要参数：

epoch_num=20：完整遍历数据集的次数
batch_size=20：每次参数更新使用的样本数
learning_rate=0.001：Adam优化器的学习率

Adam优化器结合了动量法和自适应学习率的优点，通常能获得不错的训练效果。对于这个简单任务，学习率0.001是一个合理的起点。

4.2 训练循环

python复制for epoch in range(epoch_num):
    model.train()
    watch_loss = []
    for batch_index in range(total_sample_num // batch_size):
        x = train_x[batch_index*batch_size : (batch_index+1)*batch_size]
        y = train_y[batch_index*batch_size : (batch_index+1)*batch_size]
        loss = model(x, y)
        loss.backward()
        optim.step()
        optim.zero_grad()
        watch_loss.append(loss.item())

训练循环的关键步骤：

model.train()：设置模型为训练模式
获取当前batch的数据
前向传播计算损失
反向传播计算梯度
优化器更新参数
清空梯度

每个epoch结束后，我们会计算平均损失并评估模型性能。

5. 模型评估与验证

5.1 评估函数

python复制def evaluate(model):
    model.eval()
    x, y = build_dataset(total_sample_num)
    correct, wrong = 0, 0
    with torch.no_grad():
        y_pred = model(x)
        for y_p, y_t in zip(y_pred, y):
            if float(y_p) < 0.5 and int(y_t) == 0:
                correct += 1
            elif float(y_p) >= 0.5 and int(y_t) == 1:
                correct += 1
            else:
                wrong += 1
    print("正确预测个数：%d, 正确率：%f" % (correct, correct/(correct+wrong)))
    return correct/(correct+wrong)

评估时需要注意：

model.eval()：设置模型为评估模式
torch.no_grad()：禁用梯度计算，节省内存
重新生成数据集测试泛化能力
以0.5为阈值进行二分类

5.2 训练过程监控

我们记录了每轮的准确率和损失：

python复制log = []
for epoch in range(epoch_num):
    # ...训练代码...
    acc = evaluate(model)
    log.append([acc, float(np.mean(watch_loss))])

这些数据可以用来绘制训练曲线，直观展示模型的学习过程：

python复制plt.plot(range(len(log)), [l[0] for l in log], label="acc")
plt.plot(range(len(log)), [l[1] for l in log], label="loss")
plt.legend()
plt.show()

正常情况下，准确率应该逐渐上升，损失逐渐下降。如果出现异常，可能需要调整超参数。

6. 模型预测与应用

6.1 预测函数

python复制def predict(model_path, input_vec):
    input_size = 5
    model = TorchModel(input_size)
    model.load_state_dict(torch.load(model_path))
    model.eval()
    with torch.no_grad():
        result = model(torch.FloatTensor(input_vec))
    for vec, res in zip(input_vec, result):
        print("输入：%s, 预测类别：%d, 预测值：%f" % (vec, round(float(res)), res))

预测流程：

加载保存的模型参数
设置评估模式
禁用梯度计算
对输入数据进行预测
输出结果

6.2 实际预测示例

python复制test_vec = [
    [0.07889086,0.15229675,0.31082123,0.03504317,0.18920843],
    [0.94963533,0.5524256,0.95758807,0.95520434,0.84890681],
    [0.78797868,0.67482528,0.13625847,0.34675372,0.19871392],
    [0.79349776,0.59416669,0.92579291,0.41567412,0.1358894]
]
predict("model.pt", test_vec)

对于训练良好的模型，预测结果应该与人工判断一致。例如：

第一个样本：0.078 < 0.189 → 预测0
第四个样本：0.793 > 0.135 → 预测1

7. 关键问题与解决方案

7.1 为什么选择线性模型？

对于这个简单的比较任务，输入和输出之间存在明显的线性关系：
y = I(x₁ > x₅) ≈ σ(w₁x₁ + w₅x₅ + b)

理论上，模型只需要学习到w₁≈1, w₅≈-1, b≈0就能完美解决任务。因此简单的线性模型已经足够。

7.2 如何解释模型参数？

训练完成后，可以打印模型参数：

python复制print(model.state_dict())

理想情况下，我们应该看到：

第一个权重接近1
第五个权重接近-1
其他权重接近0
偏置接近0

这表明模型确实学会了我们设计的规律。

7.3 模型性能优化技巧

如果模型表现不佳，可以尝试：

增加训练数据量
调整学习率（尝试0.01, 0.001, 0.0001）
增加训练轮数
尝试不同的优化器（SGD, RMSprop等）
添加更多隐藏层（虽然对这个简单任务可能没必要）

8. 项目扩展思路

这个基础项目可以进一步扩展：

更复杂的规律：比如判断前三个数的和是否大于后两个数的乘积
更高维度：尝试10维或20维向量的分类
多分类问题：设计更复杂的分类规则
加入噪声：在数据中加入随机噪声，测试模型鲁棒性
可视化分析：使用PCA或t-SNE可视化高维数据

通过这些扩展，可以逐步深入理解更复杂的深度学习概念和技术。

9. 实际应用中的注意事项

虽然这是一个教学示例，但其中包含的很多实践原则在真实项目中同样适用：

数据生成：确保训练数据分布与真实场景一致
模型评估：始终在独立测试集上评估模型
超参数调优：系统性地尝试不同参数组合
结果解释：理解模型学到了什么，而不只是看准确率
代码组织：将数据生成、模型定义、训练逻辑等模块化

10. 个人实践心得

通过这个项目的实践，我有几点深刻体会：

简单任务的价值：从简单任务入手，可以更清晰地理解核心概念
数据决定上限：即使是简单模型，只要有合适的数据也能表现良好
迭代的重要性：深度学习需要反复实验和调整
可视化的力量：训练曲线能直观反映模型学习过程
基础是关键：扎实理解线性模型，能为学习更复杂模型打下基础

建议初学者不要急于接触复杂模型，而是先通过这样的简单任务，深入理解数据流、损失计算、参数更新等基础概念。只有打好基础，才能在深度学习道路上走得更远。