给芯片做‘体检’：一文搞懂Scan Chain如何像串糖葫芦一样定位芯片内部故障

扶余城里小老二

给芯片做“体检”：Scan Chain如何像串糖葫芦一样定位内部故障

想象一下，当你拿着CT扫描报告单时，那些黑白图像其实是机器沿着特定路径对人体进行“切片式”观测的结果。芯片测试工程师手里的Scan Chain报告也是如此——通过精心设计的信号路径，我们能够逐层“透视”芯片内部每个触发器的健康状态。这种被称为DFT（Design for Testability）的技术，本质上是在芯片设计阶段就预埋的“体检通道”。

与传统功能测试不同，Scan Chain创造性地将芯片内部数以万计的D触发器（DFF）改造成可串联检测的“扫描单元”。就像用竹签串起山楂制成糖葫芦，这些扫描单元在测试模式下会首尾相连，形成一条贯穿芯片的检测链路。当测试机台（ATE）沿着这条链路注入测试向量时，每个触发器的状态变化都会被精确控制和观测，从而定位到纳米级制造工艺中可能存在的金属短路、开路等物理缺陷。

1. 为什么芯片需要“糖葫芦式”检测？

1.1 传统测试的局限性

在90nm工艺节点之前，芯片测试主要依赖功能验证：给输入引脚施加激励信号，观察输出是否符合预期。这种方法面临两个根本性挑战：

观测黑箱问题：芯片内部如同密闭的黑箱，仅通过外部引脚无法获知中间节点状态
组合逻辑风暴：当信号需要穿越多层与/或/非门时，故障效应可能被后续逻辑掩盖

例如某处理器ALU单元出现stuck-at-0故障（信号恒定接地），但在功能测试中可能表现为：

verilog复制// 故障被掩盖的典型案例
if (A & B) | (C & D)  // 假设B信号stuck-at-0
    // 当C&D=1时，输出仍正确

1.2 Scan Chain的革新价值

扫描链技术通过三项关键改造解决了上述问题：

触发器重构：将普通DFF升级为带多路选择的Scan-FF
- 新增扫描输入SI和模式选择端SE
- 典型结构：
```
verilog复制always @(posedge CLK)
    Q <= SE ? SI : D;  // MUX实现模式切换
```
链式拓扑：测试模式下所有Scan-FF串联成移位寄存器
- 信号传输不经过组合逻辑（直连Q→SI）
- 形成完全可控、可观测的检测通道
三阶段检测法：

模式 SE信号工作内容

Shift 1 加载测试向量

Capture 0 捕获组合逻辑响应

Shift-Out 1 输出捕获结果

模式	SE信号	工作内容
Shift	1	加载测试向量
Capture	0	捕获组合逻辑响应
Shift-Out	1	输出捕获结果

这种设计使得测试覆盖率从传统方法的不足60%提升到98%以上，下图展示其核心优势：

2. 扫描链的“穿串”工艺

2.1 Scan-FF的改造艺术

标准D触发器升级为扫描触发器需要增加约15%的面积开销，但带来十倍级的测试效率提升。关键改造点包括：

插入选择器：在D输入端增加2选1多路器

python复制# 晶体管级实现示例
def scan_mux(D, SI, SE):
    return (D & ~SE) | (SI & SE)  # 与或门实现

时钟隔离：增加独立的scan_clk避免功能时钟干扰
复位同步：测试模式下的异步复位控制

2.2 链式布局的黄金法则

优秀的扫描链布局需要平衡三个核心指标：

长度均衡：单条链不宜超过5000个FF（避免测试时间过长）
物理邻近：优先串联位置相邻的触发器（减少布线延迟）
时钟域隔离：不同时钟域的FF必须分属不同链

实际项目中常用以下约束条件：

tcl复制# DFT Compiler示例约束
set_scan_configuration -chain_count 32 \
    -max_length 4000 \
    -clock_mixing no_mix

2.3 串链的隐藏成本

虽然扫描链大幅提升可测性，但也带来三大设计挑战：

时序收敛压力：插入的MUX会增加关键路径延迟

text复制典型增量：
- Setup时间增加0.5~1.2ps
- Hold时间需额外缓冲

功耗激增：测试模式下所有触发器同时翻转
面积惩罚：每个Scan-FF增加8~12个晶体管

3. 诊断过程的“望闻问切”

3.1 测试向量的生成逻辑

ATPG（Automatic Test Pattern Generation）工具通过故障模型自动生成检测序列，以stuck-at故障为例：

激活阶段：通过Shift模式加载使故障显现的值
- 检测stuck-at-0需加载1
- 检测stuck-at-1需加载0

传播阶段：在Capture模式让故障效应传递到触发器

verilog复制// 示例故障传播路径
assign out = (a & b) | c; 
// 若b stuck-at-0，需设置a=1,c=0

捕获阶段：将异常值锁存到Scan-FF

3.2 结果分析的密码本

ATE设备捕获的输出需要与SAF（Stuck-At Fault）字典比对，典型分析流程：

错误聚类：统计失效向量对应的物理坐标
缺陷映射：将逻辑故障映射到版图位置
根因推断：
- 单个FF失效→可能金属开路
- 整列FF失效→可能电源短路

3.3 覆盖率提升技巧

当基础扫描链覆盖率不足时，工程师常用这些方法：

测试点插入：

text复制| 类型       | 插入位置          | 作用               |
|------------|-------------------|--------------------|
| 控制点     | 组合逻辑深处      | 增强信号可控性     |
| 观测点     | 关键路径末端      | 提升故障可见度     |

压缩技术：采用EDT（Embedded Deterministic Test）减少测试数据量
逻辑BIST：内置自测试模块实现周期性检测

4. 现代芯片的“全身体检”方案

4.1 多扫描链架构

7nm以下工艺芯片普遍采用分级扫描策略：

顶层链：跨模块的全局检测链
模块链：各功能模块内部的局部链
专用链：存储器周边、时钟网络等关键区域

4.2 三维堆叠芯片的挑战

对于Chiplet等先进封装，扫描链需要创新设计：

跨die链路：通过TSV连接不同晶圆的扫描链
边界同步：协调各die的测试时钟相位
功耗封顶：分时激活不同区域的扫描链

4.3 AI赋能的智能诊断

机器学习正在革新故障分析方式：

模式识别：CNN网络自动分类失效模式
根因预测：LSTM模型追溯缺陷产生环节
自优化测试：强化学习动态调整测试策略

python复制# 简化的故障分类模型
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()
clf.fit(training_patterns, fault_types)

在完成整个扫描测试流程后，资深工程师常会发现最耗时的不是测试本身，而是分析那些“似是而非”的边际失效。我曾遇到一个案例：某芯片在-40℃时扫描链出现间歇性失效，最终发现是低温下时钟树缓冲器的驱动能力下降导致捕获时序违例。这提醒我们，优秀的DFT工程师不仅要懂测试原理，更要深入理解芯片的物理实现特性。

已经到底了哦

精选内容

1 从CentOS迁移到OpenEuler 20.09：在VirtualBox上保姆级安装与初体验避坑指南 2 【深度剖析】告别臃肿仓库：精准定位与清理Git历史大文件的实战指南 3 从org.quartz.SchedulerException到Spring代理：Job执行异常的深层诊断与代理模式选择 4 深入解析IDD框架：从IddCx对象到虚拟显示器的构建实战 5 STM32CubeMX + OV2640避坑实录：LCD竖屏设置错误导致画面全蓝的排查与修复 6 别再死磕单载波了！用Python+NumPy手把手带你仿真OFDM系统（附完整代码与避坑指南）7 LaTeX避坑实录：如何用SublimeText3快速定位并清除bib文件中的隐形Unicode字符 8 告别手写报告与漏费：手把手教你用LIS系统优化医院检验科全流程（附业务流程拆解）9 cocosCreator微信小游戏之登录安全与数据校验(三)10 OpenHarmony 3.1 Release之后，如何为你的开发板编译并启用Mesa 3D图形库（以RK3568为例）