PyTorch实现线性回归：深度学习基础入门-代码聚汇网

PyTorch实现线性回归：深度学习基础入门

斯迈尔齿科

1. 项目概述：线性模型在深度学习中的基础地位

线性模型是机器学习领域最古老也最基础的算法之一，即使在深度学习大行其道的今天，它仍然是理解更复杂神经网络架构的基石。这个项目通过实现一个基于线性回归（liner regression）的简单模型，展示了如何用PyTorch框架构建、训练和评估一个完整的机器学习流程。

我在实际教学中发现，很多初学者在直接跳入卷积神经网络或Transformer之前，往往忽略了线性模型这个"Hello World"级别项目的重要性。事实上，线性回归包含了参数初始化、前向传播、损失计算、反向传播、梯度下降等深度学习的所有核心概念。通过亲手实现这个简单模型，你能获得对以下关键概念的直观理解：

权重(weight)和偏置(bias)的实际意义
均方误差(MSE)损失函数的计算方式
梯度下降如何更新模型参数
学习率(learning rate)对训练过程的影响

2. 环境准备与数据生成

2.1 PyTorch环境配置

推荐使用Python 3.8+和PyTorch 1.10+版本组合。安装命令如下：

bash复制pip install torch torchvision numpy matplotlib

注意：如果使用GPU加速训练，需要额外安装CUDA版本的PyTorch。但对于这个简单模型，CPU版本已经完全够用。

2.2 人工数据生成

我们首先生成一组简单的线性数据用于训练和测试：

python复制import torch
import numpy as np

# 设置随机种子保证可复现性
torch.manual_seed(42)

# 生成特征数据 X (100个样本，每个样本1个特征)
X = torch.linspace(0, 10, 100).reshape(-1, 1)

# 真实模型参数：weight=2, bias=3，并添加一些噪声
true_weight = 2.0
true_bias = 3.0
noise = torch.randn(X.size()) * 1.5  # 标准差1.5的高斯噪声
y = true_weight * X + true_bias + noise

这样我们就得到了一个符合y=2x+3基本规律，但带有随机扰动的数据集。可视化这些数据点可以看到它们大致沿一条直线分布。

3. 模型构建与训练

3.1 线性模型类实现

在PyTorch中，我们通过继承nn.Module类来定义模型：

python复制import torch.nn as nn

class LinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(1, 1)  # 输入特征1维，输出1维
        
    def forward(self, x):
        return self.linear(x)

这个简单的类只包含一个全连接层(nn.Linear)，它自动初始化了weight和bias参数。我们可以打印初始参数看看：

python复制model = LinearRegressionModel()
print(f'初始参数: weight={model.linear.weight.item():.3f}, bias={model.linear.bias.item():.3f}')
# 输出示例：初始参数: weight=0.764, bias=-0.771

3.2 训练配置

训练一个模型需要三个关键组件：

损失函数：衡量预测值与真实值的差距
优化器：决定如何更新参数
训练循环：重复"预测-计算损失-反向传播-更新参数"的过程

python复制# 1. 损失函数 - 均方误差
criterion = nn.MSELoss()

# 2. 优化器 - 随机梯度下降
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# 3. 训练参数
epochs = 100
loss_history = []

3.3 训练循环实现

下面是完整的训练代码：

python复制for epoch in range(epochs):
    # 前向传播
    outputs = model(X)
    loss = criterion(outputs, y)
    
    # 反向传播和优化
    optimizer.zero_grad()  # 清空梯度
    loss.backward()        # 计算梯度
    optimizer.step()       # 更新参数
    
    # 记录损失
    loss_history.append(loss.item())
    
    # 每10轮打印一次进度
    if (epoch+1) % 10 == 0:
        print(f'Epoch [{epoch+1}/{epochs}], Loss: {loss.item():.4f}')

训练过程中可以观察到损失值逐渐下降，最终稳定在一个较小值附近。通过绘制损失曲线，我们可以看到模型是如何逐步收敛的。

4. 模型评估与结果分析

4.1 训练结果可视化

训练完成后，我们可以将模型的预测结果与原始数据对比：

python复制import matplotlib.pyplot as plt

# 获取训练后的参数
weight = model.linear.weight.item()
bias = model.linear.bias.item()
print(f'训练后参数: weight={weight:.3f}, bias={bias:.3f}')

# 绘制原始数据点
plt.scatter(X.numpy(), y.numpy(), label='原始数据', color='blue')

# 绘制模型预测线
predicted = model(X).detach().numpy()
plt.plot(X.numpy(), predicted, label='拟合直线', color='red')

plt.legend()
plt.show()

理想情况下，红色预测线应该很好地穿过蓝色数据点的中心区域。由于我们添加了噪声，直线不会完美穿过所有点，但应该捕捉到整体趋势。

4.2 参数对比

将训练得到的参数与生成数据时使用的真实参数对比：

参数	真实值	训练值	误差
weight	2.0	~1.98	~1%
bias	3.0	~3.05	~1.7%

提示：由于数据中的噪声和有限的样本量，训练得到的参数不会完全等于真实值，但应该非常接近。如果误差超过5%，可能需要检查学习率或增加训练轮数。

5. 关键问题与调优技巧

5.1 学习率选择

学习率(lr)是最重要的超参数之一。通过对比不同学习率下的训练过程：

学习率	训练表现	问题现象
0.1	可能发散	损失值震荡增大
0.01	理想	平稳下降至较低值
0.001	收敛慢	需要更多epoch才能收敛

建议从0.01开始尝试，如果损失值震荡过大，适当减小；如果收敛太慢，适当增大。

5.2 特征缩放的重要性

虽然这个简单例子中x的范围是[0,10]，不需要特征缩放。但当特征量纲差异大时（如年龄[0-100]和收入[0-1000000]），必须进行标准化：

python复制from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = torch.tensor(scaler.fit_transform(X), dtype=torch.float32)

5.3 批量训练技巧

当数据量很大时，可以使用小批量梯度下降：

python复制from torch.utils.data import DataLoader, TensorDataset

dataset = TensorDataset(X, y)
dataloader = DataLoader(dataset, batch_size=10, shuffle=True)

for epoch in range(epochs):
    for batch_X, batch_y in dataloader:
        # 前向传播、反向传播等代码...

6. 项目扩展方向

这个基础线性模型可以进一步扩展为更实用的应用：

多元线性回归：修改nn.Linear的输入维度，处理多个特征

python复制self.linear = nn.Linear(num_features, 1)  # num_features > 1

添加正则化：防止过拟合

python复制optimizer = torch.optim.SGD(model.parameters(), lr=0.01, weight_decay=0.1)  # L2正则化

实现逻辑回归：只需修改损失函数为BCE，并添加sigmoid激活

python复制self.linear = nn.Linear(1, 1)
self.sigmoid = nn.Sigmoid()

def forward(self, x):
    return self.sigmoid(self.linear(x))

保存和加载模型：

python复制# 保存
torch.save(model.state_dict(), 'linear_model.pth')

# 加载
model.load_state_dict(torch.load('linear_model.pth'))

在实际项目中，我经常发现许多复杂问题其实可以通过适当扩展的线性模型解决。理解这个简单模型的每个细节，将为后续学习更复杂的神经网络打下坚实基础。