MATLAB多元线性回归实战：从基础到房价预测

Clark Liew

1. 多元线性回归基础与MATLAB环境准备

多元线性回归是数据分析中最基础也最实用的建模方法之一。简单来说，它通过建立多个自变量与因变量之间的线性关系，帮助我们理解变量间的关联并进行预测。在MATLAB中实现多元线性回归，可以充分发挥其矩阵运算的优势，让代码更加简洁高效。

1.1 MATLAB环境配置

在开始之前，确保你的MATLAB环境已经准备就绪。我推荐使用R2020b或更新版本，这些版本对矩阵运算和机器学习工具箱有更好的支持。如果你还没有安装，可以从MathWorks官网获取安装包。

安装完成后，建议检查以下工具箱是否可用：

Statistics and Machine Learning Toolbox
Optimization Toolbox（用于后续的算法优化）

在MATLAB命令窗口输入：

matlab复制ver

这将列出所有已安装的工具箱。如果缺少必要的工具箱，可以通过"附加功能"菜单进行添加。

1.2 数据准备的基本原则

无论使用什么算法，数据准备都是最关键的一步。对于多元线性回归，我们需要特别注意以下几点：

数据完整性：检查是否有缺失值，可以使用isnan()函数检测
特征相关性：通过corrplot()函数可视化特征间的相关性
异常值处理：使用箱线图或3σ原则识别和处理异常值

一个实用的数据预处理流程通常是：

matlab复制% 1. 加载数据
data = readtable('your_data.csv'); 

% 2. 处理缺失值
data = rmmissing(data); 

% 3. 分离特征和标签
X = data{:, 1:end-1}; 
y = data{:, end};

2. 多元线性回归的核心实现

2.1 正规方程法解析

正规方程(Normal Equation)是求解线性回归系数最直接的方法。其数学表达式为：
β = (XᵀX)⁻¹Xᵀy

在MATLAB中，我们可以用简洁的矩阵运算实现：

matlab复制% 添加偏置项
X = [ones(size(X,1),1), X];

% 计算回归系数
beta = (X'*X)\(X'*y);

注意：当特征矩阵X的条件数较大时，直接求逆可能导致数值不稳定。这时可以考虑使用pinv函数（伪逆）代替逆运算。

2.2 数据标准化的必要性

不同特征往往具有不同的量纲和取值范围，这会影响回归系数的解释和模型的收敛速度。标准化处理将各特征缩放至相同尺度：

matlab复制% Z-score标准化
X_normalized = (X - mean(X)) ./ std(X);

% Min-Max标准化（备选方案）
% X_normalized = (X - min(X)) ./ (max(X) - min(X));

标准化不仅加速模型收敛，还能防止某些特征因数值过大而主导整个模型。但要注意，对测试数据应使用训练集的均值和标准差进行相同的标准化处理。

2.3 模型评估指标详解

评估回归模型性能，常用的指标包括：

均方误差(MSE)：

matlab复制mse = mean((y_pred - y_true).^2);

决定系数(R²)：

matlab复制ss_res = sum((y_true - y_pred).^2);
ss_tot = sum((y_true - mean(y_true)).^2);
r2 = 1 - (ss_res/ss_tot);

调整后的R²（考虑特征数量）：

matlab复制n = length(y_true);
p = size(X,2) - 1;
adj_r2 = 1 - (1-r2)*(n-1)/(n-p-1);

在实际项目中，我通常会同时计算这三个指标，从不同角度评估模型性能。

3. 实战：房价预测案例深度解析

3.1 数据探索与可视化

在建模前，充分了解数据特征至关重要。我们可以使用MATLAB的绘图功能快速探索数据：

matlab复制% 绘制各特征与价格的散点图
figure;
subplot(1,3,1);
scatter(data.Area, data.Price);
xlabel('Area'); ylabel('Price');

subplot(1,3,2);
scatter(data.Rooms, data.Price);
xlabel('Rooms'); ylabel('Price');

subplot(1,3,3);
scatter(data.Years, data.Price);
xlabel('Years'); ylabel('Price');

% 计算并显示相关系数矩阵
corr_matrix = corr(data{:,:});
heatmap(corr_matrix);

这些可视化能帮助我们直观理解特征与目标变量的关系，以及特征间的相关性。

3.2 完整建模流程实现

基于原始案例，我们扩展一个更完整的实现：

matlab复制% 1. 数据准备
data = [1000 3 5 200; 1200 3 7 220; 1500 3 10 250; 
        1900 4 8 300; 2100 4 10 310; 2500 4 15 350; 
        2800 4 18 400];
X = data(:, 1:3);
y = data(:, 4);

% 2. 数据标准化
[X_normalized, x_mean, x_std] = zscore(X);
[y_normalized, y_mean, y_std] = zscore(y);

% 3. 添加偏置项
X_normalized = [ones(size(X_normalized,1),1), X_normalized];

% 4. 训练模型
beta = (X_normalized'*X_normalized)\(X_normalized'*y_normalized);

% 5. 预测
y_pred_normalized = X_normalized * beta;

% 6. 反标准化
y_pred = y_pred_normalized * y_std + y_mean;

% 7. 评估
mse = mean((y_pred - y).^2);
r2 = 1 - sum((y - y_pred).^2)/sum((y - mean(y)).^2);

fprintf('MSE: %.2f, R²: %.4f\n', mse, r2);

% 8. 显示回归方程
fprintf('回归方程:\n');
fprintf('Price = %.2f + %.2f*Area + %.2f*Rooms + %.2f*Years\n', ...
        beta(1)*y_std + y_mean - sum(beta(2:end).*x_mean'./x_std')*y_std, ...
        beta(2)*y_std/x_std(1), beta(3)*y_std/x_std(2), beta(4)*y_std/x_std(3));

这个实现增加了反标准化步骤，可以直接得到原始尺度下的预测值和回归方程，更便于业务解释。

3.3 模型诊断与改进

建立模型后，我们需要诊断其合理性：

matlab复制% 残差分析
residuals = y - y_pred;
figure;
subplot(1,2,1);
plot(y_pred, residuals, 'o');
xlabel('预测值'); ylabel('残差');
title('残差图');

subplot(1,2,2);
normplot(residuals);
title('残差正态性检验');

% 方差膨胀因子(VIF)检测多重共线性
vif = diag(inv(corrcoef(X)));
disp('VIF值:');
disp(vif);

如果残差图显示明显模式（如U型曲线）或VIF值大于10，可能需要考虑：

添加高阶项或交互项
使用正则化方法
移除高度相关的特征

4. 高级技巧与常见问题

4.1 正则化方法应用

当数据存在多重共线性或特征较多时，可以使用岭回归(Ridge)或Lasso回归：

matlab复制% 岭回归
lambda = 0.1;  % 正则化参数
beta_ridge = (X_normalized'*X_normalized + lambda*eye(size(X_normalized,2))) \ (X_normalized'*y_normalized);

% Lasso回归（需要Optimization Toolbox）
[B, FitInfo] = lasso(X_normalized(:,2:end), y_normalized, 'Alpha', 1);

正则化能有效防止过拟合，但需要谨慎选择正则化参数λ。我通常使用交叉验证来确定最佳λ值。

4.2 特征工程技巧

提升模型性能的关键在于特征工程。一些实用技巧包括：

多项式特征：添加特征的平方项、立方项
交互项：考虑特征间的相互作用
分箱处理：将连续变量离散化

matlab复制% 添加多项式特征
X_poly = [X, X(:,1).^2, X(:,2).^2, X(:,3).^2];

% 添加交互项
X_interaction = [X, X(:,1).*X(:,2), X(:,1).*X(:,3), X(:,2).*X(:,3)];

4.3 常见问题排查

在实际应用中，我遇到过的一些典型问题及解决方案：

矩阵奇异或接近奇异：
- 检查是否有完全相关的特征
- 使用rank()函数检查矩阵秩
- 考虑正则化或主成分分析(PCA)
预测结果不理想：
- 检查特征与目标的相关性
- 尝试非线性变换（如对数变换）
- 考虑更复杂的模型（如决策树、神经网络）
运行速度慢：
- 对于大数据集，使用fitlm代替手动实现
- 考虑随机梯度下降等迭代方法
- 使用稀疏矩阵存储稀疏数据

4.4 模型部署与生产化

当模型开发完成后，可以考虑：

将模型保存为MAT文件：

matlab复制save('regression_model.mat', 'beta', 'x_mean', 'x_std', 'y_mean', 'y_std');

创建预测函数：

matlab复制function price = predict_price(area, rooms, years, model)
    % 加载模型参数
    load(model, 'beta', 'x_mean', 'x_std', 'y_mean', 'y_std');
    
    % 新数据标准化
    X_new = [area, rooms, years];
    X_new_normalized = (X_new - x_mean) ./ x_std;
    X_new_normalized = [1, X_new_normalized];
    
    % 预测
    y_pred_normalized = X_new_normalized * beta;
    price = y_pred_normalized * y_std + y_mean;
end