20行Python实现线性回归：从原理到代码实战-代码聚汇网

20行Python实现线性回归：从原理到代码实战

橙心橙怡

1. 项目概述

线性回归作为机器学习领域最基础也最重要的算法之一，是每个数据科学学习者的必经之路。今天我要分享的是一个极简版本的线性回归实现代码，这个版本去掉了所有非核心元素，保留了最本质的数学运算，非常适合初学者理解算法底层原理。

这个实现仅用不到20行Python代码就完成了从数据生成到模型训练的全过程，没有使用任何高级框架，纯粹基于NumPy进行矩阵运算。我在教学过程中发现，很多新手在学习scikit-learn等现成工具包前，如果能先手动实现一遍基础版本，对理解梯度下降、损失函数等核心概念会有质的飞跃。

2. 核心原理拆解

2.1 线性回归数学模型

线性回归的核心假设是目标变量y与特征x之间存在线性关系：
y = w*x + b
其中w是权重(斜率)，b是偏置项(截距)。我们的目标是通过训练数据找到最优的w和b，使得预测值与真实值的误差最小。

2.2 损失函数设计

这里采用最常用的均方误差(MSE)作为损失函数：
L = 1/N * Σ(y_pred - y_true)²
MSE的优点是对大误差惩罚更重，且数学性质良好（处处可导）。

2.3 梯度下降优化

通过计算损失函数对w和b的偏导数，我们可以得到梯度：
∂L/∂w = 2/N * Σ(y_pred - y_true)*x
∂L/∂b = 2/N * Σ(y_pred - y_true)

然后按照学习率α更新参数：
w = w - α * ∂L/∂w
b = b - α * ∂L/∂b

3. 完整代码实现

python复制import numpy as np

# 生成模拟数据
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# 初始化参数
w = np.random.randn(1)
b = np.zeros(1)

# 训练参数
learning_rate = 0.1
n_iterations = 1000

for iteration in range(n_iterations):
    # 前向传播
    y_pred = w * X + b
    
    # 计算梯度
    dw = (2/len(X)) * np.dot(X.T, (y_pred - y))
    db = (2/len(X)) * np.sum(y_pred - y)
    
    # 参数更新
    w -= learning_rate * dw
    b -= learning_rate * db

print(f"训练结果: w={w[0]:.3f}, b={b[0]:.3f}")

4. 关键实现细节

4.1 数据生成技巧

代码中我们使用np.random.rand()生成0-1均匀分布，乘以2后得到0-2区间的特征值。真实值y在理想线性关系(4+3X)基础上添加了高斯噪声(np.random.randn)，这样更接近真实数据场景。

注意：随机种子(seed(42))的设置保证了每次运行生成相同数据，便于调试和教学演示。

4.2 参数初始化策略

权重w从标准正态分布初始化，而偏置b初始化为0。这是线性回归常用的初始化方式，因为：

w需要不同的初始值打破对称性
b从0开始通常不会影响收敛速度

4.3 学习率选择

这里使用固定学习率0.1，对于这个简单问题足够：

太大(如>0.5)可能导致震荡不收敛
太小(如<0.01)会显著增加训练时间

实际项目中可以考虑学习率衰减策略：

python复制learning_rate = 0.1 / (1 + iteration/100)

5. 常见问题与调试

5.1 损失不下降怎么办？

如果发现损失函数值没有随着迭代下降：

检查梯度计算是否正确 - 可以手动计算几个样本验证
降低学习率尝试（如从0.1降到0.01）
确认输入特征是否做了适当归一化

5.2 如何判断训练是否充分？

除了观察损失值下降曲线外，可以：

比较最后几次迭代的参数变化量
设置早停机制：当连续10次迭代损失下降小于ε时停止

5.3 与scikit-learn结果对比

可以添加以下代码与标准库结果对比：

python复制from sklearn.linear_model import LinearRegression
lr = LinearRegression().fit(X, y)
print(f"sklearn结果: w={lr.coef_[0][0]:.3f}, b={lr.intercept_[0]:.3f}")

正常情况下两者结果应该非常接近，差异主要来自：

迭代次数是否足够
随机噪声的影响
学习率的设置

6. 扩展改进方向

这个基础版本可以进一步扩展：

添加L2正则化（岭回归）：

python复制dw = (2/len(X)) * np.dot(X.T, (y_pred - y)) + 2 * lambda_ * w

实现小批量梯度下降：

python复制batch_indices = np.random.choice(len(X), batch_size)
X_batch = X[batch_indices]
y_batch = y[batch_indices]

添加动量加速收敛：

python复制v_w = gamma * v_w + learning_rate * dw
w -= v_w

我在实际教学中发现，学生通过这个简单实现真正理解了反向传播的本质后，再学习神经网络等复杂模型会容易很多。建议初学者可以尝试在这个代码基础上添加可视化功能，实时观察参数更新和损失下降过程，这对建立直观理解非常有帮助。