1. 智能电网被动侦察基准数据集概述
在智能电网通信安全研究领域,被动侦察威胁的检测一直面临着数据匮乏的挑战。传统数据集主要关注主动攻击场景,如虚假数据注入、拒绝服务等协议层攻击,而忽略了仅通过物理接近改变传播环境的被动侦察行为。这种仅存在式被动攻击(presence-only passive reconnaissance)虽然不直接干扰通信内容,却能够通过改变信道特性泄露关键信息。
我们开发的基准数据集填补了这一空白,其核心创新在于:
- 构建了符合IEEE智能电网标准的12节点分层通信拓扑(HAN/NAN/WAN)
- 集成了ZigBee、Wi-Fi、LoRa、PLC、LTE和光纤等多种通信技术
- 通过物理一致的CSI→SNR→PER→延迟因果链生成时间序列特征
- 将被动攻击严格建模为传播层扰动(阴影效应和相干性下降)
提示:该数据集特别适合评估那些需要结合时空特征的检测算法,因为被动攻击引发的异常通常表现为低幅度、时间相关的链路指标漂移。
2. 数据集设计与实现细节
2.1 分层通信拓扑构建
数据集采用三层拓扑结构,各层节点角色和技术分配如下表所示:
| 层级 | 节点名称 | 通信技术 | 攻击适用性 |
|---|---|---|---|
| HAN | SmartMeter0-2 | ZigBee | 是 |
| HAN | Gateway3 | Wi-Fi | 是 |
| NAN | DER4-5 | LoRa | 是 |
| NAN | FeederRelay6 | PLC | 是 |
| NAN | Controller7 | LTE | 是 |
| WAN | PMU8 | 光纤 | 否 |
| WAN | SCADA9 | 光纤 | 否 |
| WAN | AMIHeadend10 | LTE | 是 |
| WAN | SubstationGW11 | PLC | 是 |
拓扑连接遵循严格的层级约束:
- HAN智能电表仅连接至HAN网关
- NAN节点(DER、馈线继电器)连接至NAN控制器
- HAN网关连接至NAN控制器实现层级聚合
- WAN骨干连接控制器和变电站网关至SCADA、AMI前端和PMU节点
这种设计避免了直接的HAN-WAN连接,符合智能电网通信参考架构。
2.2 信道与链路指标建模
数据集采用离散时间基带抽象,通过以下因果链生成链路指标:
code复制复杂衰落过程h(t) → CSI幅度C(t) → SNR γ(t) → PER p(t) → 延迟L(t)
具体实现要点:
-
复衰落过程:采用技术相关的高斯-马尔可夫模型
math复制h_i(t) = ρ_i h_i(t-1) + √(1-ρ_i^2) w_i(t), w_i(t) ~ CN(0,1) -
CSI幅度观测:
math复制C_i(t) = max(10^{(20log10|h_i(t)| + 观测噪声)/20}, ε_0) -
SNR计算:
math复制γ_i(dB)(t) = γ_0,i(tech) + δ_i + 20log10(c_i(t)) + m_i(tech) + s_i,dB(t) - i_i,dB(t) -
PER推导:
math复制PER_i(t) = (1 + exp(k_i(γ_i(dB)(t) - γ_50,i)))^(-1) -
延迟计算:
math复制L_i(t) = L_0,i(tech) + Δ_rtx * reTX_i(t) + η_i(t) + u_i(t)
2.3 被动攻击建模
被动攻击通过以下机制实现:
-
阴影损耗:在攻击窗口内添加额外的dB衰减
math复制s_i,dB(t) = s_i,dB_normal(t) + Δs_w · r_w(t) · a_i(t)其中r_w(t)是斜坡函数,a_i(t)是活动门控
-
相干性降低:
- 修改复衰落过程的时间相关性ρ_i(t)
- 增加信道创新(散射)分量ν_i(t)
-
Wi-Fi多径效应(可选):
- 注入额外的反射路径分量
- 模拟人体引起的多径变化
攻击实施遵循严格的活动门控原则,仅在符合以下条件时生效:
- 节点使用符合条件的通信技术(ZigBee/Wi-Fi/LoRa/PLC/LTE)
- 当前时间处于攻击窗口内
- 节点在该周期有数据传输活动(tx_count>0)
3. 数据集特征工程
3.1 基础特征集
每个节点在每个时间周期生成以下原始特征:
- tx_count:传输尝试次数
- C:CSI幅度观测值
- SNR:推导的信噪比(dB)
- PER:数据包错误率
- L:原始延迟
- L̃:EWMA平滑延迟
- phase_sin/cos:相位正弦/余弦分量
- dphase:相位差分
3.2 时序特征工程
采用严格因果的滚动特征计算方法:
-
滑动窗口统计量(窗口大小=5):
- 均值、标准差、最小值、最大值
- 一阶自相关系数
- 线性趋势斜率
-
差分特征:
- 一阶差分
- 二阶差分
- 对数收益率
-
特殊变换:
- 周期归一化(除以训练集标准差)
- 分位数离散化(10分位)
3.3 拓扑感知特征
利用通信图结构生成邻居聚合特征:
-
邻居平均算子:
math复制P = D^{-1}A, W = 0.3I + 0.7P其中D是度矩阵,A是邻接矩阵
-
邻居聚合特征:
math复制\bar{x}(t) = Wx(t) -
偏差特征:
math复制|x_i(t) - \bar{x}_i(t)|
4. 防泄露设计与数据集划分
4.1 独立分割实现
数据集采用严格的防泄露设计:
-
训练/验证/测试集是完全独立的实现
- 不同分割间不共享潜在状态
- 每个分割有独立的预热期和随机种子
-
特征标准化:
- 仅使用训练集统计量计算归一化参数
- 相同参数应用于验证/测试集
-
因果约束:
- 所有特征仅使用历史信息计算
- 禁止未来信息泄露
4.2 攻击窗口设计
攻击窗口生成规则:
- 核心持续时间L ~ U[L_min, L_max]
- 标记窗口长度L_lab = L + 2Δ
- 攻击覆盖率控制在符合条件的活跃行上
- 节点分组遵循拓扑局部性:
- 从符合条件的节点中随机选择锚点
- 扩展至1跳邻居形成攻击组
4.3 数据集发布内容
完整数据集包含:
-
时间序列数据:
- 训练/验证/测试集(每个节点单独文件)
- 标准化元数据(每个节点)
-
拓扑信息:
- 节点元数据(角色、层级、技术)
- 邻接矩阵
- 邻居聚合算子
-
攻击元数据:
- 攻击窗口定义
- 扰动参数记录
- 活动标记
5. 基准检测实验
5.1 实验设置
评估采用联合学习框架,重点考察:
-
模型类型:
- 线性模型(Fed-LR)
- 树模型(Fed-XGB)
- 循环网络(Fed-LSTM)
- 门控循环网络(Fed-GRNN)
-
特征子集:
- 仅使用可观测链路指标
- 排除潜在诊断变量
- 包含拓扑聚合特征
-
评估指标:
- 精确率、召回率、F1、准确率
- 按节点类型的性能分解
5.2 实验结果分析
在10个非光纤节点上的宏观平均性能:
| 模型 | 精确率 | 召回率 | F1 | 准确率 |
|---|---|---|---|---|
| Fed-LR | 0.3997 | 0.8866 | 0.5326 | 0.7301 |
| Fed-XGB | 0.5469 | 0.6634 | 0.7129 | 0.8192 |
| Fed-LSTM | 0.5793 | 0.7788 | 0.6489 | 0.8580 |
| Fed-GRNN | 0.6813 | 0.7857 | 0.7201 | 0.8954 |
关键发现:
- 线性模型召回率高但精确率低,表明存在大量误报
- 树模型改善了精确率,但在微妙攻击模式下召回率下降
- 循环网络展现出更好的权衡,特别是GRNN变体
- 不同通信技术间性能差异显著(如LoRa节点最难检测)
5.3 实用建议
基于实验结果,我们建议在实际部署中:
-
采用图-时序混合模型:
- 结合GNN和RNN的优势
- 同时捕捉时空依赖关系
-
实施层级感知检测:
- 为不同层级/技术定制检测阈值
- 特别关注HAN层的ZigBee/Wi-Fi节点
-
部署联邦学习框架:
- 保护节点数据隐私
- 实现分布式模型更新
-
设置动态决策窗口:
- 根据攻击持续时间调整检测灵敏度
- 平衡实时性和准确性
6. 应用场景扩展
虽然本数据集针对智能电网场景设计,但其方法论可扩展至:
-
工业物联网(IIoT):
- 工厂设备监测网络
- 过程控制系统的被动威胁检测
-
车联网(V2X):
- 车辆间通信的安全监测
- 路侧单元(RSU)的异常检测
-
关键基础设施:
- 水处理厂SCADA系统
- 油气管道监控网络
-
智慧城市应用:
- 智能交通信号网络
- 环境监测传感器网络
实现这些扩展时需注意:
- 调整拓扑结构反映特定领域架构
- 更新通信技术参数集
- 重新校准攻击模型假设
- 可能需扩展节点角色定义