智能电网被动侦察数据集：填补安全研究空白-代码聚汇网

智能电网被动侦察数据集：填补安全研究空白

抖抖村

1. 智能电网被动侦察基准数据集概述

在智能电网通信安全研究领域，被动侦察威胁的检测一直面临着数据匮乏的挑战。传统数据集主要关注主动攻击场景，如虚假数据注入、拒绝服务等协议层攻击，而忽略了仅通过物理接近改变传播环境的被动侦察行为。这种仅存在式被动攻击（presence-only passive reconnaissance）虽然不直接干扰通信内容，却能够通过改变信道特性泄露关键信息。

我们开发的基准数据集填补了这一空白，其核心创新在于：

构建了符合IEEE智能电网标准的12节点分层通信拓扑（HAN/NAN/WAN）
集成了ZigBee、Wi-Fi、LoRa、PLC、LTE和光纤等多种通信技术
通过物理一致的CSI→SNR→PER→延迟因果链生成时间序列特征
将被动攻击严格建模为传播层扰动（阴影效应和相干性下降）

提示：该数据集特别适合评估那些需要结合时空特征的检测算法，因为被动攻击引发的异常通常表现为低幅度、时间相关的链路指标漂移。

2. 数据集设计与实现细节

2.1 分层通信拓扑构建

数据集采用三层拓扑结构，各层节点角色和技术分配如下表所示：

层级	节点名称	通信技术	攻击适用性
HAN	SmartMeter0-2	ZigBee	是
HAN	Gateway3	Wi-Fi	是
NAN	DER4-5	LoRa	是
NAN	FeederRelay6	PLC	是
NAN	Controller7	LTE	是
WAN	PMU8	光纤	否
WAN	SCADA9	光纤	否
WAN	AMIHeadend10	LTE	是
WAN	SubstationGW11	PLC	是

拓扑连接遵循严格的层级约束：

HAN智能电表仅连接至HAN网关
NAN节点(DER、馈线继电器)连接至NAN控制器
HAN网关连接至NAN控制器实现层级聚合
WAN骨干连接控制器和变电站网关至SCADA、AMI前端和PMU节点

这种设计避免了直接的HAN-WAN连接，符合智能电网通信参考架构。

2.2 信道与链路指标建模

数据集采用离散时间基带抽象，通过以下因果链生成链路指标：

code复制复杂衰落过程h(t) → CSI幅度C(t) → SNR γ(t) → PER p(t) → 延迟L(t)

具体实现要点：

复衰落过程：采用技术相关的高斯-马尔可夫模型

math复制h_i(t) = ρ_i h_i(t-1) + √(1-ρ_i^2) w_i(t), w_i(t) ~ CN(0,1)

CSI幅度观测：

math复制C_i(t) = max(10^{(20log10|h_i(t)| + 观测噪声)/20}, ε_0)

SNR计算：

math复制γ_i(dB)(t) = γ_0,i(tech) + δ_i + 20log10(c_i(t)) + m_i(tech) + s_i,dB(t) - i_i,dB(t)

PER推导：

math复制PER_i(t) = (1 + exp(k_i(γ_i(dB)(t) - γ_50,i)))^(-1)

延迟计算：

math复制L_i(t) = L_0,i(tech) + Δ_rtx * reTX_i(t) + η_i(t) + u_i(t)

2.3 被动攻击建模

被动攻击通过以下机制实现：

阴影损耗：在攻击窗口内添加额外的dB衰减
```
math复制s_i,dB(t) = s_i,dB_normal(t) + Δs_w · r_w(t) · a_i(t)
```
其中r_w(t)是斜坡函数，a_i(t)是活动门控
相干性降低：
- 修改复衰落过程的时间相关性ρ_i(t)
- 增加信道创新(散射)分量ν_i(t)
Wi-Fi多径效应（可选）：
- 注入额外的反射路径分量
- 模拟人体引起的多径变化

攻击实施遵循严格的活动门控原则，仅在符合以下条件时生效：

节点使用符合条件的通信技术(ZigBee/Wi-Fi/LoRa/PLC/LTE)
当前时间处于攻击窗口内
节点在该周期有数据传输活动(tx_count>0)

3. 数据集特征工程

3.1 基础特征集

每个节点在每个时间周期生成以下原始特征：

tx_count：传输尝试次数
C：CSI幅度观测值
SNR：推导的信噪比(dB)
PER：数据包错误率
L：原始延迟
L̃：EWMA平滑延迟
phase_sin/cos：相位正弦/余弦分量
dphase：相位差分

3.2 时序特征工程

采用严格因果的滚动特征计算方法：

滑动窗口统计量（窗口大小=5）：
- 均值、标准差、最小值、最大值
- 一阶自相关系数
- 线性趋势斜率
差分特征：
- 一阶差分
- 二阶差分
- 对数收益率
特殊变换：
- 周期归一化（除以训练集标准差）
- 分位数离散化（10分位）

3.3 拓扑感知特征

利用通信图结构生成邻居聚合特征：

邻居平均算子：
```
math复制P = D^{-1}A, W = 0.3I + 0.7P
```
其中D是度矩阵，A是邻接矩阵
邻居聚合特征：
```
math复制\bar{x}(t) = Wx(t)
```
偏差特征：
```
math复制|x_i(t) - \bar{x}_i(t)|
```

4. 防泄露设计与数据集划分

4.1 独立分割实现

数据集采用严格的防泄露设计：

训练/验证/测试集是完全独立的实现
- 不同分割间不共享潜在状态
- 每个分割有独立的预热期和随机种子
特征标准化：
- 仅使用训练集统计量计算归一化参数
- 相同参数应用于验证/测试集
因果约束：
- 所有特征仅使用历史信息计算
- 禁止未来信息泄露

4.2 攻击窗口设计

攻击窗口生成规则：

核心持续时间L ~ U[L_min, L_max]
标记窗口长度L_lab = L + 2Δ
攻击覆盖率控制在符合条件的活跃行上
节点分组遵循拓扑局部性：
- 从符合条件的节点中随机选择锚点
- 扩展至1跳邻居形成攻击组

4.3 数据集发布内容

完整数据集包含：

时间序列数据：
- 训练/验证/测试集（每个节点单独文件）
- 标准化元数据（每个节点）
拓扑信息：
- 节点元数据（角色、层级、技术）
- 邻接矩阵
- 邻居聚合算子
攻击元数据：
- 攻击窗口定义
- 扰动参数记录
- 活动标记

5. 基准检测实验

5.1 实验设置

评估采用联合学习框架，重点考察：

模型类型：
- 线性模型（Fed-LR）
- 树模型（Fed-XGB）
- 循环网络（Fed-LSTM）
- 门控循环网络（Fed-GRNN）
特征子集：
- 仅使用可观测链路指标
- 排除潜在诊断变量
- 包含拓扑聚合特征
评估指标：
- 精确率、召回率、F1、准确率
- 按节点类型的性能分解

5.2 实验结果分析

在10个非光纤节点上的宏观平均性能：

模型	精确率	召回率	F1	准确率
Fed-LR	0.3997	0.8866	0.5326	0.7301
Fed-XGB	0.5469	0.6634	0.7129	0.8192
Fed-LSTM	0.5793	0.7788	0.6489	0.8580
Fed-GRNN	0.6813	0.7857	0.7201	0.8954

关键发现：

线性模型召回率高但精确率低，表明存在大量误报
树模型改善了精确率，但在微妙攻击模式下召回率下降
循环网络展现出更好的权衡，特别是GRNN变体
不同通信技术间性能差异显著（如LoRa节点最难检测）

5.3 实用建议

基于实验结果，我们建议在实际部署中：

采用图-时序混合模型：
- 结合GNN和RNN的优势
- 同时捕捉时空依赖关系
实施层级感知检测：
- 为不同层级/技术定制检测阈值
- 特别关注HAN层的ZigBee/Wi-Fi节点
部署联邦学习框架：
- 保护节点数据隐私
- 实现分布式模型更新
设置动态决策窗口：
- 根据攻击持续时间调整检测灵敏度
- 平衡实时性和准确性

6. 应用场景扩展

虽然本数据集针对智能电网场景设计，但其方法论可扩展至：

工业物联网(IIoT)：
- 工厂设备监测网络
- 过程控制系统的被动威胁检测
车联网(V2X)：
- 车辆间通信的安全监测
- 路侧单元(RSU)的异常检测
关键基础设施：
- 水处理厂SCADA系统
- 油气管道监控网络
智慧城市应用：
- 智能交通信号网络
- 环境监测传感器网络

实现这些扩展时需注意：

调整拓扑结构反映特定领域架构
更新通信技术参数集
重新校准攻击模型假设
可能需扩展节点角色定义