1. 北航机器学习期末备考策略与核心考点解析
作为一名经历过北航机器学习课程洗礼的老学长,我深知这门课的期末备考压力有多大。2025年秋季学期的考试虽然号称"统一出卷、题型有变",但根据实际考试情况来看,往年真题仍然是备考的黄金资料。本文将系统梳理各章节核心考点,并提供针对性的复习建议,帮助你在有限时间内高效备考。
1.1 备考资源选择与时间规划
从实际考试反馈来看,以下两个资源最具参考价值:
- CSDN博客《北京航空航天大学机器学习2024秋季学期期末卷!》
- 凉宫秋月的个人博客《北航机器学习期末考试例题汇总》
建议将70%的复习时间用于消化这两份资料中的例题,特别是那些与PPT例题高度相似的题型。剩余30%时间用于理解推导过程和概念辨析,这对回答简答题和论述题至关重要。
重要提示:完全背诵PPT内容既不现实也没必要,重点掌握典型例题的解题思路和关键步骤即可。
2. 核心考点深度解析
2.1 贝叶斯决策理论
这是每年必考的基础题型,主要考查两种决策准则:
- 最小错误率贝叶斯决策:基于后验概率最大化
- 最小风险贝叶斯决策:引入损失函数进行风险最小化
解题要点:
- 熟记贝叶斯公式:P(ω_i|x) = P(x|ω_i)P(ω_i)/P(x)
- 对于最小风险决策,需要明确损失矩阵λ(α_i|ω_j)的含义
- 实际计算时,可以忽略分母P(x),只需比较分子部分
典型例题(来自引用2):
给定两类ω₁和ω₂的先验概率P(ω₁)=0.9,P(ω₂)=0.1,类条件概率密度:
p(x|ω₁)=N(1,1), p(x|ω₂)=N(0,1)
求x=0.5时的分类结果。
解:
计算后验概率:
P(ω₁|0.5) ∝ 0.9×N(0.5;1,1) ≈ 0.9×0.352 = 0.3168
P(ω₂|0.5) ∝ 0.1×N(0.5;0,1) ≈ 0.1×0.352 = 0.0352
因此归为ω₁类。
2.2 模型评估指标
混淆矩阵相关题目几乎每年必考,需要掌握:
核心概念:
- TP(真正例)、FN(假反例)、FP(假正例)、TN(真反例)
- 查准率(Precision) = TP/(TP+FP)
- 查全率(Recall) = TP/(TP+FN)
- F1分数 = 2×Precision×Recall/(Precision+Recall)
常见考点:
- 给定预测结果和真实标签,构建混淆矩阵
- 计算各类评估指标
- 分析查准率与查全率的trade-off关系
例题:
真实标签:[1,0,1,1,0,1], 预测结果:[1,1,0,1,0,1]
构建混淆矩阵并计算指标。
解:
code复制 预测
1 0
真 1 TP=2 FN=1
实 0 FP=1 TN=2
Precision = 2/3 ≈ 0.667
Recall = 2/3 ≈ 0.667
F1 = 0.667
2.3 聚类算法
K-Means和EM算法是重点考查内容:
2.3.1 K-Means算法
核心要点:
- 准则函数:J = ΣΣr_nk||x_n-μ_k||²
- 迭代步骤:
- E-step:计算r_nk(分配样本到最近中心)
- M-step:更新μ_k(重新计算聚类中心)
- 缺点与改进:
- 对初始中心敏感 → K-Means++
- 只能发现球形簇 → 谱聚类
- 需要预先指定K值 → 肘部法则
计算题示例:
给定数据点:A(1,1), B(1,2), C(10,10), D(10,11)
初始中心:μ₁=(1,1), μ₂=(10,10)
求第一次迭代后的聚类结果。
解:
- 计算距离:
- A到μ₁=0, A到μ₂≈12.73 → A∈C₁
- B到μ₁=1, B到μ₂≈12.04 → B∈C₁
- C到μ₁≈12.73, C到μ₂=0 → C∈C₂
- D到μ₁≈13.45, D到μ₂=1 → D∈C₂
- 新中心:
μ₁'=((1+1)/2,(1+2)/2)=(1,1.5)
μ₂'=((10+10)/2,(10+11)/2)=(10,10.5)
2.3.2 EM算法关联
K-Means是EM的特例:
- E-step:硬分配(K-Means)vs 软分配(EM)
- M-step:均值计算(K-Means)vs 参数估计(EM)
2.4 降维技术
PCA是降维部分的绝对重点:
2.4.1 两种推导视角
-
最大方差视角:
- 目标:找到投影方向使投影后方差最大
- 推导:max wᵀΣw, s.t. wᵀw=1 → Σw=λw
-
最小误差视角:
- 目标:重构误差最小化
- 推导:min ||X-X̂||² → 同最大方差
计算步骤:
- 中心化数据
- 计算协方差矩阵Σ
- 特征值分解
- 取前k大特征值对应特征向量
2.4.2 PCA vs LDA
| 对比维度 |
PCA |
LDA |
| 目标 |
方差最大化 |
类间/类内比最大化 |
| 监督性 |
无监督 |
有监督 |
| 适用场景 |
特征提取 |
分类任务 |
| 数学基础 |
协方差矩阵 |
类间/类内散布矩阵 |
2.5 线性模型与SVM
2.5.1 线性分类器
决策函数g(x)=wᵀx+w₀的几何解释:
- w:超平面的法向量
- w₀:偏移量
- |g(x)|/||w||:点到超平面的距离
线性可分定义:存在超平面完美分离两类样本
2.5.2 SVM理论
-
硬间隔SVM:
- 目标:max 2/||w|| ↔ min ½||w||²
- 约束:y_i(wᵀx_i+w₀)≥1
-
软间隔SVM:
- 引入松弛变量ξ_i
- 新目标:min ½||w||² + CΣξ_i
- 约束:y_i(wᵀx_i+w₀)≥1-ξ_i, ξ_i≥0
参数说明:
- C:惩罚系数,控制容错程度
- ξ_i:松弛变量,允许部分样本不满足约束
2.6 集成学习
2.6.1 基本思想
通过结合多个弱学习器构建强学习器,主要方式:
-
串行方法(如Boosting):
- 顺序训练基学习器
- 后续学习器关注前序错误样本
- 加权组合各学习器
-
并行方法(如Bagging):
- 并行训练多个独立学习器
- 通过投票/平均得到最终结果
2.6.2 代表算法
-
AdaBoost:
- 初始化样本权重
- 迭代训练弱分类器
- 更新样本权重(增加错分样本权重)
- 加权组合弱分类器
-
随机森林:
- 自助采样构建多个数据集
- 为每个数据集训练决策树
- 投票决定最终分类
2.7 注意力机制
虽然2025年考题中这部分占比不高,但作为前沿内容值得关注:
2.7.1 基本概念
- Query:当前关注的焦点
- Key:待匹配的标识
- Value:实际提供的信息
计算过程:
Attention(Q,K,V) = softmax(QKᵀ/√d_k)V
2.7.2 多头注意力
- 将Q,K,V投影到h个子空间
- 分别计算注意力
- 拼接结果并线性变换
优势:
2.8 决策树
ID3算法是决策树部分的考查重点:
2.8.1 算法步骤
- 计算数据集的信息熵H(D)
- 计算各特征的条件熵H(D|A)
- 选择信息增益最大的特征作为划分标准
- 对每个取值递归建树
信息增益计算:
Gain(D,A) = H(D) - Σ(|D_v|/|D|)H(D_v)
2.8.2 剪枝策略
| 类型 |
时机 |
优点 |
缺点 |
| 预剪枝 |
建树过程中 |
计算成本低 |
可能欠拟合 |
| 后剪枝 |
建树完成后 |
保留更多信息 |
计算成本高 |
2.9 神经网络
2.9.1 BP算法推导
关键步骤:
- 前向传播计算输出
- 计算输出层误差δ^L = ∇_aC ⊙ σ'(z^L)
- 反向传播误差:δ^l = ((w^{l+1})ᵀδ^{l+1})⊙σ'(z^l)
- 权重更新:∂C/∂w^l_{jk} = a^{l-1}_kδ^l_j
2.9.2 CNN核心组件
2.9.3 CNN vs Transformer
| 特性 |
CNN |
Transformer |
| 感受野 |
局部→全局 |
全局 |
| 计算复杂度 |
O(n) |
O(n²) |
| 数据需求 |
相对较少 |
大量数据 |
| 并行性 |
一般 |
优秀 |
2.10 开放论述题
最后一题通常考查对前沿技术的理解,如2025年考题涉及:
GPT与具身智能:
答题技巧:
- 分点论述,逻辑清晰
- 结合具体应用场景
- 体现批判性思考
3. 备考建议与注意事项
3.1 时间分配策略
根据各章节在往年试卷中的占比,建议时间分配如下:
| 章节 |
建议时间 |
理由 |
| 贝叶斯决策 |
5% |
基础题,确保拿分 |
| 模型评估 |
5% |
固定套路题 |
| 聚类算法 |
15% |
常考计算题 |
| 降维技术 |
15% |
理论+计算重点 |
| 线性模型 |
10% |
基础理论 |
| 集成学习 |
10% |
概念+流程 |
| 注意力机制 |
5% |
新兴内容 |
| 决策树 |
15% |
常考ID3计算 |
| 神经网络 |
15% |
BP推导重点 |
| 开放题 |
5% |
考前准备素材 |
3.2 常见失分点
-
推导过程不完整:
- BP算法、PCA推导等要求步骤清晰
- 建议分步书写,标注关键变换
-
概念混淆:
- 如混淆LDA与PCA的区别
- 对策:制作对比表格强化记忆
-
时间分配不当:
- 前面小题耗时过多导致大题仓促
- 建议:客观题控制在1分钟内/题
3.3 考场应对技巧
-
审题策略:
- 先快速浏览全卷,判断难易分布
- 用铅笔标注各题预计用时
-
答题顺序:
-
卷面管理:
经验之谈:遇到完全陌生的题目时,尝试联系相近知识点作答,通常能获得部分分数。