KNN算法原理与Matlab实现详解-代码聚汇网

KNN算法原理与Matlab实现详解

CarrieYung

1. KNN算法核心原理与Matlab实现概述

K近邻算法（K-Nearest Neighbors）作为机器学习中最直观的分类算法之一，其核心思想可以用一个生活场景来理解：假设你搬到一个新小区，想了解这个小区是否适合居住，最直接的方法就是询问离你最近的几户邻居对这个社区的评价。KNN算法正是基于这种"近朱者赤"的朴素逻辑。

在技术实现层面，KNN属于懒惰学习（Lazy Learning）的代表，与那些需要复杂训练过程的算法不同，它的工作流程异常简单：

存储所有训练样本
计算待分类样本与所有训练样本的距离
选取距离最近的K个样本
通过投票机制确定待分类样本的类别

Matlab作为科学计算领域的利器，其强大的矩阵运算能力和丰富的可视化功能，使得实现KNN算法变得异常高效。特别是内置的pdist2函数，可以快速计算各种距离度量，而无需手动实现复杂的距离计算逻辑。

提示：KNN虽然简单，但在特征维度较高时会出现"维度灾难"，此时需要考虑特征选择或降维技术。

2. 数据准备与可视化分析

2.1 样本数据构造的艺术

原始代码中使用的是手工构造的二维数据：

matlab复制X = [1 2; 1.5 1.8; 5 8; 8 8; 1 0.6; 9 11; 8 2; 10 12];
Y = [0; 0; 1; 1; 0; 1; 0; 1];

这种构造方式虽然直观，但在实际工程中我们更常遇到的是从文件或数据库加载的真实数据。Matlab提供了多种数据加载方式：

matlab复制% 从CSV文件加载
data = readtable('dataset.csv');
X = table2array(data(:,1:2));  % 前两列作为特征
Y = data(:,3);                 % 第三列作为标签

% 或者从Excel加载
data = xlsread('dataset.xlsx');
X = data(:,1:2);
Y = data(:,3);

2.2 数据可视化的专业技巧

原始代码中的可视化已经展示了基本的散点图绘制：

matlab复制figure;
hold on;
plot(X(Y == 0, 1), X(Y == 0, 2), 'ro', 'MarkerFaceColor', 'r');
plot(X(Y == 1, 1), X(Y == 1, 2), 'bo', 'MarkerFaceColor', 'b');

但在实际项目中，我们可以进行更多专业化的增强：

添加网格和参考线：

matlab复制grid on;
ax = gca;
ax.XAxisLocation = 'origin';
ax.YAxisLocation = 'origin';

设置等比例坐标轴：

matlab复制axis equal;

添加数据密度信息：

matlab复制histogram2(X(:,1), X(:,2), 'DisplayStyle','tile','ShowEmptyBins','on');

交互式可视化：

matlab复制scatter(X(:,1), X(:,2), 100, Y, 'filled');
colorbar;

3. KNN核心算法实现细节

3.1 距离度量的选择与实现

原始代码使用了默认的欧氏距离：

matlab复制distances = pdist2(testX, X);

但实际上，pdist2支持多种距离度量方式，选择适合的距离度量对分类效果至关重要：

matlab复制% 欧氏距离（默认）
distances = pdist2(testX, X, 'euclidean');

% 曼哈顿距离（适用于高维数据）
distances = pdist2(testX, X, 'cityblock');

% 切比雪夫距离
distances = pdist2(testX, X, 'chebychev');

% 余弦相似度（适用于文本数据）
distances = pdist2(testX, X, 'cosine');

% 马氏距离（考虑特征相关性）
covX = cov(X);
distances = pdist2(testX, X, 'mahalanobis', covX);

3.2 K值选择的科学方法

原始代码中简单地将K设为3：

matlab复制k = 3;

但在实际应用中，K值需要通过系统的方法确定：

经验法则：通常取训练样本数的平方根

matlab复制k = round(sqrt(size(X,1)));

交叉验证法：

matlab复制cv = cvpartition(Y, 'KFold', 5);
for k = 1:10
    knn = fitcknn(X, Y, 'NumNeighbors', k, 'CVPartition', cv);
    err(k) = kfoldLoss(knn);
end
[~, optimalK] = min(err);

基于验证集的方法：

matlab复制% 划分训练集和验证集
rng(1); % 固定随机种子
[trainInd,valInd] = dividerand(size(X,1),0.7,0.3);

X_train = X(trainInd,:);
Y_train = Y(trainInd);
X_val = X(valInd,:);
Y_val = Y(valInd);

% 寻找最佳K
for k = 1:2:15
    knn = fitcknn(X_train, Y_train, 'NumNeighbors', k);
    pred = predict(knn, X_val);
    accuracy(k) = sum(pred == Y_val)/length(Y_val);
end
[~, optimalK] = max(accuracy);

3.3 投票机制的进阶实现

原始代码使用了简单的众数投票：

matlab复制[classifications, counts] = mode(nearestNeighbors);

更复杂的投票策略可以考虑：

加权投票（基于距离的权重）：

matlab复制weights = 1./(distances(:,indices(:,1:k)) + eps); % 加eps避免除零
weightedVotes = zeros(size(testX,1), max(Y)+1);
for i = 1:size(testX,1)
    for j = 1:k
        weightedVotes(i, nearestNeighbors(i,j)+1) = ...
            weightedVotes(i, nearestNeighbors(i,j)+1) + weights(i,j);
    end
end
[~, classifications] = max(weightedVotes, [], 2);
classifications = classifications - 1;

概率估计：

matlab复制classProbs = sum(nearestNeighbors == 0, 2)/k;

4. 工程实践中的关键问题与解决方案

4.1 数据标准化的重要性

不同特征往往具有不同的量纲，这会导致距离计算被大数值特征主导。常见的标准化方法包括：

matlab复制% Z-score标准化
[X, mu, sigma] = zscore(X);
testX = (testX - mu)./sigma;

% Min-Max标准化
minX = min(X);
maxX = max(X);
X = (X - minX)./(maxX - minX);
testX = (testX - minX)./(maxX - minX);

4.2 处理类别不平衡问题

当各类别样本数量差异较大时，可以采用以下策略：

调整类别权重：

matlab复制classWeights = 1./countcats(Y);
sampleWeights = classWeights(double(Y)+1);
distances = distances .* sampleWeights';

使用平衡KNN：

matlab复制knn = fitcknn(X, Y, 'NumNeighbors', 5, 'DistanceWeight', 'inverse', ...
    'ClassNames', unique(Y), 'Prior', 'empirical');

4.3 高维数据的处理技巧

当特征维度很高时，可以考虑：

特征选择：

matlab复制[features, history] = sequentialfs(@myKnnFun, X, Y);

降维技术：

matlab复制[coeff, score] = pca(X);
X_pca = score(:,1:2); % 取前两个主成分

5. 性能优化与大规模数据处理

5.1 使用KD树加速搜索

对于大数据集，线性搜索效率低下，可以使用空间分割数据结构：

matlab复制% 构建KD树
kdtree = KDTreeSearcher(X);

% 搜索最近邻
[neighbors, distances] = knnsearch(kdtree, testX, 'K', k);

5.2 并行计算实现

利用Matlab的并行计算工具箱加速：

matlab复制parfor i = 1:size(testX,1)
    dists = sqrt(sum((X - testX(i,:)).^2, 2));
    [~, idx] = sort(dists);
    classifications(i) = mode(Y(idx(1:k)));
end

5.3 内存优化技巧

对于超大规模数据，可以采用分块处理：

matlab复制blockSize = 1000;
numBlocks = ceil(size(testX,1)/blockSize);
for b = 1:numBlocks
    blockIdx = (b-1)*blockSize+1:min(b*blockSize, size(testX,1));
    blockX = testX(blockIdx,:);
    
    % 计算距离矩阵（分块计算避免内存溢出）
    distances = zeros(length(blockIdx), size(X,1));
    for i = 1:size(X,1)
        distances(:,i) = sqrt(sum((blockX - X(i,:)).^2, 2));
    end
    
    % 后续处理...
end

6. 实际应用案例扩展

6.1 手写数字识别

matlab复制% 加载MNIST数据集（需要下载）
load('mnist.mat');

% 随机选取1000个样本作为训练集
rng(1);
trainIdx = randperm(size(trainX,1), 1000);
X = trainX(trainIdx,:);
Y = trainY(trainIdx);

% 测试样本
testIdx = 1:100;
testX = testX(testIdx,:);
testY = testY(testIdx);

% KNN分类
k = 5;
knn = fitcknn(X, Y, 'NumNeighbors', k);
pred = predict(knn, testX);

% 计算准确率
accuracy = sum(pred == testY)/length(testY);
disp(['Accuracy: ', num2str(accuracy*100), '%']);

6.2 医疗诊断预测

matlab复制% 加载威斯康星乳腺癌数据集
data = readtable('wdbc.data.csv');
X = table2array(data(:,3:end));
Y = double(strcmp(data.diagnosis, 'M')); % M=1, B=0

% 数据标准化
X = zscore(X);

% 划分训练测试集
cv = cvpartition(Y, 'HoldOut', 0.3);
X_train = X(cv.training,:);
Y_train = Y(cv.training);
X_test = X(cv.test,:);
Y_test = Y(cv.test);

% 寻找最优K
k_range = 1:2:15;
accuracies = zeros(length(k_range),1);
for i = 1:length(k_range)
    knn = fitcknn(X_train, Y_train, 'NumNeighbors', k_range(i));
    pred = predict(knn, X_test);
    accuracies(i) = sum(pred == Y_test)/length(Y_test);
end

% 可视化K与准确率关系
plot(k_range, accuracies);
xlabel('K值');
ylabel('测试集准确率');

7. 算法评估与模型选择

7.1 性能评估指标

除了准确率，还应该考虑：

matlab复制% 混淆矩阵
C = confusionmat(Y_test, pred);
disp('混淆矩阵:');
disp(C);

% 精确率、召回率、F1分数
precision = C(2,2)/(C(2,2)+C(1,2));
recall = C(2,2)/(C(2,2)+C(2,1));
f1 = 2*(precision*recall)/(precision+recall);

disp(['精确率: ', num2str(precision)]);
disp(['召回率: ', num2str(recall)]);
disp(['F1分数: ', num2str(f1)]);

7.2 与其他算法的比较

matlab复制% 决策树
tree = fitctree(X_train, Y_train);
tree_pred = predict(tree, X_test);
tree_acc = sum(tree_pred == Y_test)/length(Y_test);

% SVM
svm = fitcsvm(X_train, Y_train);
svm_pred = predict(svm, X_test);
svm_acc = sum(svm_pred == Y_test)/length(Y_test);

% 随机森林
rf = TreeBagger(50, X_train, Y_train);
rf_pred = str2double(predict(rf, X_test));
rf_acc = sum(rf_pred == Y_test)/length(Y_test);

disp(['KNN准确率: ', num2str(max(accuracies))]);
disp(['决策树准确率: ', num2str(tree_acc)]);
disp(['SVM准确率: ', num2str(svm_acc)]);
disp(['随机森林准确率: ', num2str(rf_acc)]);

8. 高级话题与未来方向

8.1 核KNN算法

通过核函数将数据映射到高维空间：

matlab复制% 高斯核函数
gamma = 0.1;
K = exp(-gamma*pdist2(X, X).^2);

% 核KNN预测
testK = exp(-gamma*pdist2(testX, X).^2);
[~, idx] = sort(testK, 2, 'descend');
neighbors = Y(idx(:,1:k));
pred = mode(neighbors, 2);

8.2 在线学习KNN

适用于数据流场景：

matlab复制% 初始化
model.X = [];
model.Y = [];
model.maxSize = 1000; % 最大存储样本数

% 在线更新
function model = onlineKnnUpdate(model, newX, newY)
    if size(model.X,1) >= model.maxSize
        % 替换最旧的样本
        model.X = [model.X(2:end,:); newX];
        model.Y = [model.Y(2:end); newY];
    else
        model.X = [model.X; newX];
        model.Y = [model.Y; newY];
    end
end

% 在线预测
function pred = onlineKnnPredict(model, testX, k)
    distances = pdist2(testX, model.X);
    [~, idx] = sort(distances, 2);
    neighbors = model.Y(idx(:,1:k));
    pred = mode(neighbors, 2);
end

8.3 深度KNN

结合深度特征提取：

matlab复制% 使用预训练的CNN提取特征
net = alexnet;
layer = 'fc7';

% 提取训练特征
trainFeatures = activations(net, trainImages, layer);

% 提取测试特征
testFeatures = activations(net, testImages, layer);

% KNN分类
knn = fitcknn(trainFeatures, trainLabels, 'NumNeighbors', 5);
pred = predict(knn, testFeatures);