北航机器学习期末核心考点与高效备考指南

楚沐风

1. 北航机器学习期末备考策略与核心考点解析

作为一名经历过北航机器学习课程洗礼的老学长，我深知这门课的期末备考压力有多大。2025年秋季学期的考试虽然号称"统一出卷、题型有变"，但根据实际考试情况来看，往年真题仍然是备考的黄金资料。本文将系统梳理各章节核心考点，并提供针对性的复习建议，帮助你在有限时间内高效备考。

1.1 备考资源选择与时间规划

从实际考试反馈来看，以下两个资源最具参考价值：

CSDN博客《北京航空航天大学机器学习2024秋季学期期末卷！》
凉宫秋月的个人博客《北航机器学习期末考试例题汇总》

建议将70%的复习时间用于消化这两份资料中的例题，特别是那些与PPT例题高度相似的题型。剩余30%时间用于理解推导过程和概念辨析，这对回答简答题和论述题至关重要。

重要提示：完全背诵PPT内容既不现实也没必要，重点掌握典型例题的解题思路和关键步骤即可。

2. 核心考点深度解析

2.1 贝叶斯决策理论

这是每年必考的基础题型，主要考查两种决策准则：

最小错误率贝叶斯决策：基于后验概率最大化
最小风险贝叶斯决策：引入损失函数进行风险最小化

解题要点：

熟记贝叶斯公式：P(ω_i|x) = P(x|ω_i)P(ω_i)/P(x)
对于最小风险决策，需要明确损失矩阵λ(α_i|ω_j)的含义
实际计算时，可以忽略分母P(x)，只需比较分子部分

典型例题（来自引用2）：
给定两类ω₁和ω₂的先验概率P(ω₁)=0.9，P(ω₂)=0.1，类条件概率密度：
p(x|ω₁)=N(1,1), p(x|ω₂)=N(0,1)
求x=0.5时的分类结果。

解：
计算后验概率：
P(ω₁|0.5) ∝ 0.9×N(0.5;1,1) ≈ 0.9×0.352 = 0.3168
P(ω₂|0.5) ∝ 0.1×N(0.5;0,1) ≈ 0.1×0.352 = 0.0352
因此归为ω₁类。

2.2 模型评估指标

混淆矩阵相关题目几乎每年必考，需要掌握：

核心概念：

TP(真正例)、FN(假反例)、FP(假正例)、TN(真反例)
查准率(Precision) = TP/(TP+FP)
查全率(Recall) = TP/(TP+FN)
F1分数 = 2×Precision×Recall/(Precision+Recall)

常见考点：

给定预测结果和真实标签，构建混淆矩阵
计算各类评估指标
分析查准率与查全率的trade-off关系

例题：
真实标签：[1,0,1,1,0,1], 预测结果：[1,1,0,1,0,1]
构建混淆矩阵并计算指标。

解：

code复制       预测
      1   0
真 1 TP=2 FN=1
实 0 FP=1 TN=2

Precision = 2/3 ≈ 0.667
Recall = 2/3 ≈ 0.667
F1 = 0.667

2.3 聚类算法

K-Means和EM算法是重点考查内容：

2.3.1 K-Means算法

核心要点：

准则函数：J = ΣΣr_nk||x_n-μ_k||²
迭代步骤：
- E-step：计算r_nk（分配样本到最近中心）
- M-step：更新μ_k（重新计算聚类中心）
缺点与改进：
- 对初始中心敏感 → K-Means++
- 只能发现球形簇 → 谱聚类
- 需要预先指定K值 → 肘部法则

计算题示例：
给定数据点：A(1,1), B(1,2), C(10,10), D(10,11)
初始中心：μ₁=(1,1), μ₂=(10,10)
求第一次迭代后的聚类结果。

解：

计算距离：
- A到μ₁=0, A到μ₂≈12.73 → A∈C₁
- B到μ₁=1, B到μ₂≈12.04 → B∈C₁
- C到μ₁≈12.73, C到μ₂=0 → C∈C₂
- D到μ₁≈13.45, D到μ₂=1 → D∈C₂
新中心：
μ₁'=((1+1)/2,(1+2)/2)=(1,1.5)
μ₂'=((10+10)/2,(10+11)/2)=(10,10.5)

2.3.2 EM算法关联

K-Means是EM的特例：

E-step：硬分配（K-Means）vs 软分配（EM）
M-step：均值计算（K-Means）vs 参数估计（EM）

2.4 降维技术

PCA是降维部分的绝对重点：

2.4.1 两种推导视角

最大方差视角：
- 目标：找到投影方向使投影后方差最大
- 推导：max wᵀΣw, s.t. wᵀw=1 → Σw=λw
最小误差视角：
- 目标：重构误差最小化
- 推导：min ||X-X̂||² → 同最大方差

计算步骤：

中心化数据
计算协方差矩阵Σ
特征值分解
取前k大特征值对应特征向量

2.4.2 PCA vs LDA

对比维度	PCA	LDA
目标	方差最大化	类间/类内比最大化
监督性	无监督	有监督
适用场景	特征提取	分类任务
数学基础	协方差矩阵	类间/类内散布矩阵

2.5 线性模型与SVM

2.5.1 线性分类器

决策函数g(x)=wᵀx+w₀的几何解释：

w：超平面的法向量
w₀：偏移量
|g(x)|/||w||：点到超平面的距离

线性可分定义：存在超平面完美分离两类样本

2.5.2 SVM理论

硬间隔SVM：
- 目标：max 2/||w|| ↔ min ½||w||²
- 约束：y_i(wᵀx_i+w₀)≥1
软间隔SVM：
- 引入松弛变量ξ_i
- 新目标：min ½||w||² + CΣξ_i
- 约束：y_i(wᵀx_i+w₀)≥1-ξ_i, ξ_i≥0

参数说明：

C：惩罚系数，控制容错程度
ξ_i：松弛变量，允许部分样本不满足约束

2.6 集成学习

2.6.1 基本思想

通过结合多个弱学习器构建强学习器，主要方式：

串行方法（如Boosting）：
1. 顺序训练基学习器
2. 后续学习器关注前序错误样本
3. 加权组合各学习器
并行方法（如Bagging）：
1. 并行训练多个独立学习器
2. 通过投票/平均得到最终结果

2.6.2 代表算法

AdaBoost：
1. 初始化样本权重
2. 迭代训练弱分类器
3. 更新样本权重（增加错分样本权重）
4. 加权组合弱分类器
随机森林：
1. 自助采样构建多个数据集
2. 为每个数据集训练决策树
3. 投票决定最终分类

2.7 注意力机制

虽然2025年考题中这部分占比不高，但作为前沿内容值得关注：

2.7.1 基本概念

Query：当前关注的焦点
Key：待匹配的标识
Value：实际提供的信息

计算过程：
Attention(Q,K,V) = softmax(QKᵀ/√d_k)V

2.7.2 多头注意力

将Q,K,V投影到h个子空间
分别计算注意力
拼接结果并线性变换

优势：

捕捉不同子空间的信息
提高模型表达能力

2.8 决策树

ID3算法是决策树部分的考查重点：

2.8.1 算法步骤

计算数据集的信息熵H(D)
计算各特征的条件熵H(D|A)
选择信息增益最大的特征作为划分标准
对每个取值递归建树

信息增益计算：
Gain(D,A) = H(D) - Σ(|D_v|/|D|)H(D_v)

2.8.2 剪枝策略

类型	时机	优点	缺点
预剪枝	建树过程中	计算成本低	可能欠拟合
后剪枝	建树完成后	保留更多信息	计算成本高

2.9 神经网络

2.9.1 BP算法推导

关键步骤：

前向传播计算输出
计算输出层误差δ^L = ∇_aC ⊙ σ'(z^L)
反向传播误差：δ^l = ((w^{l+1})ᵀδ^{l+1})⊙σ'(z^l)
权重更新：∂C/∂w^l_{jk} = a^{l-1}_kδ^l_j

2.9.2 CNN核心组件

卷积层：
- 局部连接
- 权重共享
- 提取局部特征
池化层：
- 降维
- 平移不变性
- 常用最大池化

2.9.3 CNN vs Transformer

特性	CNN	Transformer
感受野	局部→全局	全局
计算复杂度	O(n)	O(n²)
数据需求	相对较少	大量数据
并行性	一般	优秀

2.10 开放论述题

最后一题通常考查对前沿技术的理解，如2025年考题涉及：

GPT与具身智能：

应用前景：
- 多模态交互
- 机器人自主决策
- 复杂环境适应
主要挑战：
- 实时性要求
- 物理世界不确定性
- 安全性与伦理问题

答题技巧：

分点论述，逻辑清晰
结合具体应用场景
体现批判性思考

3. 备考建议与注意事项

3.1 时间分配策略

根据各章节在往年试卷中的占比，建议时间分配如下：

章节	建议时间	理由
贝叶斯决策	5%	基础题，确保拿分
模型评估	5%	固定套路题
聚类算法	15%	常考计算题
降维技术	15%	理论+计算重点
线性模型	10%	基础理论
集成学习	10%	概念+流程
注意力机制	5%	新兴内容
决策树	15%	常考ID3计算
神经网络	15%	BP推导重点
开放题	5%	考前准备素材