【计算理论】从不确定性到确定性：子集构造法详解 NFA 转 DFA 的核心步骤

扶余城里小老二

1. 理解NFA和DFA的本质区别

第一次接触有限自动机时，最让我困惑的就是为什么要有NFA和DFA这两种看似相似的东西。后来在实际项目中踩过几次坑才明白，它们的区别就像是在迷宫中找路：NFA像是同时派出多个探险队，每个队伍都可能找到不同的路径；而DFA则像是一支纪律严明的队伍，每次只选择一条确定的路线前进。

NFA（非确定性有限自动机）最显著的特点就是它的"不确定性"。具体表现在：

多值转移：同一个输入字符可能导致多个不同的状态转移
ε空转移：不需要输入字符就能自动跳转到其他状态
并行计算：可以理解为同时探索所有可能的路径

而DFA（确定性有限自动机）则相反：

单值转移：每个状态对每个输入字符只有唯一确定的下一个状态
无空转移：必须读取实际输入字符才能发生状态变化
串行计算：任何时候都只有唯一确定的状态

我在处理正则表达式引擎时发现，虽然NFA的理论模型更灵活，但实际计算机只能像DFA那样一步步执行。这就是为什么需要将NFA转换为DFA - 把理论上的可能性变成实际可执行的确定性步骤。

2. 子集构造法的核心思想

子集构造法就像是一个精明的收纳师，把NFA中杂乱无章的状态可能性整理成DFA中井然有序的状态集合。这个方法的核心可以用三个关键词概括：

状态集合：不再把NFA的单个状态看作DFA的状态，而是将NFA的一组状态"打包"成DFA的一个新状态。比如把NFA的状态{1,3}看作DFA的一个新状态A。

ε闭包：这是处理空转移的关键。计算某个状态的ε闭包，就是找出通过ε转移能到达的所有状态。比如状态1通过ε能到状态3，那么状态1的ε闭包就是{1,3}。

迁移计算：对于DFA新状态中的每个NFA状态，计算它们在某个输入字符下的转移，然后取所有这些转移结果的并集，再求这个并集的ε闭包。

我刚开始学习时总想不明白为什么要取并集。后来用实际例子才明白：这相当于考虑NFA所有可能的并行路径，把它们合并成DFA的一条确定路径。

3. 完整转换步骤详解

让我们通过一个具体例子，一步步走完NFA转DFA的全过程。假设有一个包含ε转移的NFA：

code复制状态集：{1,2,3}
输入字符：{a,b}
转移函数：
1 --a--> ∅
1 --b--> {2}
1 --ε--> 3
2 --a--> {2,3} 
2 --b--> {3}
3 --a--> {1,3}
3 --b--> ∅
开始状态：1
接受状态：1

3.1 初始化工作

首先准备一张空表，列表示输入字符（a,b），行将用来记录DFA的新状态。第一步永远是计算开始状态的ε闭包。

开始状态是1，通过ε能到达3，所以初始状态是{1,3}。我们把它记在表格第一行：

DFA状态	a	b

3.2 计算第一个状态的转移

现在计算{1,3}在输入a和b时的转移：

读取a字符：

状态1读a：∅
状态3读a：{1,3}
并集是{1,3}，它的ε闭包还是{1,3}（因为1可以通过ε到3）

读取b字符：

状态1读b：
状态3读b：∅
并集是{2}，它的ε闭包是{2}（因为没有从2出发的ε转移）

更新表格：

DFA状态	a	b

3.3 处理新出现的状态

{2}是新状态，需要加入表格并计算它的转移：

{2}读取a：

状态2读a：{2,3}
ε闭包：{2,3}（假设没有从2,3出发的ε转移）

{2}读取b：

状态2读b：{3}
ε闭包：{3}（假设没有从3出发的ε转移）

更新表格：

DFA状态	a	b

3.4 继续处理新状态

现在{2,3}和{3}是新状态，继续处理：

{2,3}读取a：

状态2读a：
状态3读a：{1,3}
并集：{1,2,3}
ε闭包：{1,2,3}（因为1可以通过ε到3）

{2,3}读取b：

状态2读b：
状态3读b：∅
并集：{3}
ε闭包：

{3}读取a：

状态3读a：{1,3}
ε闭包：

{3}读取b：

状态3读b：∅
ε闭包：∅

更新表格：

DFA状态	a	b



		∅

3.5 处理最后的新状态

还剩下{1,2,3}和∅需要处理：

{1,2,3}读取a：

状态1读a：∅
状态2读a：
状态3读a：{1,3}
并集：{1,2,3}
ε闭包：

{1,2,3}读取b：

状态1读b：
状态2读b：
状态3读b：∅
并集：{2,3}
ε闭包：

∅读取a/b：都是∅

最终完整表格：

DFA状态	a	b



		∅

∅	∅	∅

3.6 确定开始和接受状态

开始状态：DFA的开始状态就是NFA开始状态的ε闭包，这里是
接受状态：只要DFA状态中包含NFA的任何接受状态（这里是1），就是DFA的接受状态。因此{1,3}和{1,2,3}是接受状态

4. 实际应用中的注意事项

在真正实现NFA到DFA转换时，有几个容易踩坑的地方需要特别注意：

状态命名优化：实际编程中，像{1,3}这样的集合状态名很不方便。通常会给它们重新编号，比如：

A =
B =
C =
D =
E =
F = ∅

空集状态处理：空集状态就像一个黑洞，所有输入都会回到自身。虽然数学上需要它，但实际实现时可以考虑优化掉这种不可能到达接受状态的情况。

最小化DFA：转换得到的DFA通常不是最简形式。可以使用DFA最小化算法进一步优化，合并等价状态。比如在这个例子中，可能发现某些状态其实是等价的。

我在实现正则表达式引擎时，就因为没有正确处理ε闭包导致匹配结果错误。后来通过逐步打印每个步骤的状态变化，才找到问题所在。这也让我明白，理解算法的最好方式就是亲手实现它。

已经到底了哦

精选内容

1 大语言模型全景图：从技术演进到产业应用深度解析 2 别再让模型路径打架了！手把手教你用Simulink Project管理MBD项目（附MATLAB路径冲突避坑指南）3 手把手教你用ADB命令抓取Perfetto日志（适配无系统跟踪的国产手机）4 告别Win11默认蓝色背景：3分钟教你自定义登录界面壁纸（含模糊效果关闭方法）5 手把手教你用Python复现IJCAI 2025时间序列新模型：以FreqLLM和T2S为例 6 别再手动点下一步了！Windows Server上Zabbix Agent 6.0保姆级静默安装与自动配置脚本 7 别再被审稿人Diss了！用PCL高斯滤波搞定点云去噪的保姆级代码实战 8 别再让导线电阻偷走你的电压！手把手教你用四线制给FPGA核心精准供电 9 数字集成电路设计之加法器：从基础单元到高性能架构的演进之路 10 PCL直通滤波PassThrough保姆级教程：从单维度到多维度（XYZ）阈值过滤实战

【计算理论】从不确定性到确定性：子集构造法详解 NFA 转 DFA 的核心步骤

1. 理解NFA和DFA的本质区别

2. 子集构造法的核心思想

3. 完整转换步骤详解

3.1 初始化工作

3.2 计算第一个状态的转移

3.3 处理新出现的状态

3.4 继续处理新状态

3.5 处理最后的新状态

3.6 确定开始和接受状态

4. 实际应用中的注意事项

内容推荐