MATLAB葡萄酒分类数据集分析与机器学习实践-代码聚汇网

MATLAB葡萄酒分类数据集分析与机器学习实践

金陵小老头

1. 葡萄酒分类数据集概述

在数据分析与机器学习领域，葡萄酒分类是一个经典的入门案例。MATLAB作为科学计算领域的权威工具，提供了完整的葡萄酒数据集处理流程。这个数据集最初源自1991年意大利皮埃蒙特地区的葡萄酒化学分析结果，包含178个样本和13个化学成分特征，分为3个类别。

这个数据集之所以经典，是因为它：

样本量适中（178个）
特征维度合理（13个）
类别区分明确（3类）
数据质量干净（无缺失值）

提示：葡萄酒数据集在MATLAB中内置为wine变量，可以直接调用，无需额外下载安装。

2. 数据集结构与特征解析

2.1 数据字段详解

数据集包含13个关键的化学成分指标：

酒精含量（Alcohol）
苹果酸（Malic acid）
灰分（Ash）
灰分碱度（Alkalinity of ash）
镁含量（Magnesium）
总酚（Total phenols）
类黄酮（Flavanoids）
非类黄酮酚（Nonflavanoid phenols）
原花青素（Proanthocyanins）
颜色强度（Color intensity）
色调（Hue）
OD280/OD315稀释葡萄酒（OD280/OD315 of diluted wines）
脯氨酸（Proline）

每个特征的单位和测量方法各不相同，这在预处理时需要特别注意。例如酒精含量以体积百分比表示，而脯氨酸含量则以mg/L为单位。

2.2 类别分布

三个葡萄酒类别分别对应意大利皮埃蒙特地区的三种不同葡萄品种：

Class 1: Barolo（巴罗洛）
Class 2: Grignolino（格里尼奥利诺）
Class 3: Barbera（巴贝拉）

在178个样本中，类别分布为：

Class 1: 59个样本
Class 2: 71个样本
Class 3: 48个样本

这种不均衡分布在建模时需要考虑，可能需要采用过采样或欠采样技术。

3. MATLAB数据加载与预处理

3.1 数据加载方法

MATLAB提供了多种加载葡萄酒数据集的途径：

matlab复制% 方法1：直接加载内置数据集
load wine.data  % 原始数据格式
wine = readtable('wine.data');  % 转为表格格式

% 方法2：通过统计和机器学习工具箱
[wine_input, wine_target] = wine_dataset;

注意：不同MATLAB版本的数据加载方式可能略有差异。R2018b之后推荐使用readtable函数。

3.2 数据预处理技巧

3.2.1 特征标准化

由于各特征量纲差异大，必须进行标准化处理：

matlab复制% Z-score标准化
wine_normalized = zscore(wine_input);

% 或者使用mapminmax进行[0,1]归一化
[wine_scaled, ps] = mapminmax(wine_input);

3.2.2 类别标签处理

MATLAB中类别标签通常需要转换为分类变量或虚拟变量：

matlab复制% 将类别标签转为分类变量
wine_labels = categorical(wine_target');

% 或者转为one-hot编码
wine_onehot = dummyvar(grp2idx(wine_target))';

4. 探索性数据分析(EDA)

4.1 基本统计量分析

使用MATLAB的统计函数快速了解数据分布：

matlab复制% 计算各特征的基本统计量
stats = [mean(wine_input,2); std(wine_input,[],2); 
         min(wine_input,[],2); max(wine_input,[],2)];

% 可视化统计量
heatmap(stats, 'XLabel', '统计量', 'YLabel', '特征',...
       'Title', '葡萄酒特征统计量热图');

4.2 特征相关性分析

通过相关系数矩阵发现特征间关系：

matlab复制corr_matrix = corr(wine_input');
heatmap(corr_matrix, 'Title', '葡萄酒特征相关性热图');

结果显示类黄酮(Flavanoids)与总酚(Total phenols)高度相关(r=0.86)，可以考虑特征降维。

4.3 主成分分析(PCA)

降维可视化是理解高维数据的有效方法：

matlab复制[coeff, score, latent] = pca(wine_input');
gscatter(score(:,1), score(:,2), wine_target);
xlabel('第一主成分');
ylabel('第二主成分');
title('葡萄酒数据PCA可视化');

PCA结果显示前两个主成分可以解释约55%的方差，三个类别在二维空间中有一定分离趋势。

5. 分类模型构建与评估

5.1 数据划分

采用分层抽样确保各类别比例一致：

matlab复制cv = cvpartition(wine_target, 'HoldOut', 0.3);
train_data = wine_input(:, training(cv));
test_data = wine_input(:, test(cv));
train_labels = wine_target(training(cv));
test_labels = wine_target(test(cv));

5.2 常用分类算法实现

5.2.1 支持向量机(SVM)

matlab复制svm_model = fitcsvm(train_data', train_labels,...
                   'KernelFunction', 'rbf',...
                   'Standardize', true);
svm_pred = predict(svm_model, test_data');
accuracy_svm = sum(svm_pred == test_labels')/numel(test_labels);

5.2.2 随机森林

matlab复制rf_model = TreeBagger(100, train_data', train_labels,...
                     'Method', 'classification');
rf_pred = predict(rf_model, test_data');
accuracy_rf = sum(str2double(rf_pred) == grp2idx(test_labels'))/numel(test_labels);

5.2.3 朴素贝叶斯

matlab复制nb_model = fitcnb(train_data', train_labels);
nb_pred = predict(nb_model, test_data');
accuracy_nb = sum(nb_pred == test_labels')/numel(test_labels);

5.3 模型评估与比较

构建评估矩阵综合比较模型表现：

matlab复制models = {'SVM', 'Random Forest', 'Naive Bayes'};
accuracies = [accuracy_svm, accuracy_rf, accuracy_nb];
bar(accuracies);
set(gca, 'XTickLabel', models);
ylabel('准确率');
title('不同分类模型性能比较');

通常随机森林在这个数据集上表现最佳，平均准确率可达98%左右。

6. 高级分析与技巧

6.1 特征选择方法

使用最小冗余最大相关(mRMR)算法选择关键特征：

matlab复制[idx, scores] = fscmrmr(wine_input', wine_target);
bar(scores(idx));
set(gca, 'XTickLabel', wine_features(idx));
title('特征重要性评分');

结果显示脯氨酸(Proline)、类黄酮(Flavanoids)和颜色强度(Color intensity)是最具判别力的特征。

6.2 超参数优化

使用贝叶斯优化自动调整SVM参数：

matlab复制opt_vars = [optimizableVariable('BoxConstraint',[1e-3,1e3],'Transform','log');
            optimizableVariable('KernelScale',[1e-3,1e3],'Transform','log')];
svm_fun = @(x)crossval('mcr',train_data',train_labels,...
                      'Predfun',@(xtrain,ytrain,xtest)predict(fitcsvm(xtrain,ytrain,...
                      'KernelFunction','rbf','BoxConstraint',x.BoxConstraint,...
                      'KernelScale',x.KernelScale),xtest),...
                      'kfold',5);
results = bayesopt(svm_fun, opt_vars, 'Verbose',0);
best_params = bestPoint(results);

6.3 混淆矩阵分析

深入分析分类错误类型：

matlab复制conf_mat = confusionmat(test_labels, svm_pred);
heatmap(conf_mat, 'XLabel', '预测类别', 'YLabel', '真实类别',...
       'Title', 'SVM混淆矩阵');

通常Class 2(Grignolino)最容易被误分类，因为它与其他两类都有部分特征重叠。

7. 实际应用中的注意事项

数据泄露问题：确保预处理步骤（如标准化）只在训练集上进行，然后应用到测试集
类别不平衡处理：当某些类别样本过少时，考虑使用SMOTE过采样或调整类别权重
特征工程：尝试创建新特征，如"酚类比例"=总酚/类黄酮，可能提高模型性能
模型解释性：使用LIME或SHAP等工具解释模型预测，这对食品科学研究很重要
跨年份验证：如果可能，使用不同年份的葡萄酒数据验证模型泛化能力

我在实际分析中发现，葡萄酒数据集虽然干净，但很容易过拟合。建议始终使用交叉验证评估模型，而不要依赖单一测试集结果。另外，不同MATLAB版本中的数据集格式可能略有差异，建议在脚本开头添加版本检查逻辑。