MiniRocket在航空维护事件检测中的应用与实践-代码聚汇网

MiniRocket在航空维护事件检测中的应用与实践

逆狗

1. 项目概述：航空维护事件的智能检测

在航空安全领域，维护事件的有效检测一直是保障飞行安全的关键环节。传统的人工检测方法不仅效率低下，而且难以应对海量传感器数据带来的挑战。本项目基于NGAFID数据集，利用MiniRocket模型实现了航空维护事件的二分类检测，为航空安全维护提供了一种高效的自动化解决方案。

NGAFID（National General Aviation Flight Information Database）是目前最大的带标注多变量时序航空数据集之一。我们使用的2days子集包含11,446条航班记录，每条记录包含23个传感器特征，时间序列长度从605步到20,679步不等，中位数约为5,282步。这些数据记录了飞机在维护前后的各种状态参数，为我们的研究提供了丰富的信息基础。

特别提示：在航空安全领域，数据质量和模型可靠性至关重要。本项目采用了严格的五折交叉验证方法，确保评估结果的客观性和可重复性。

2. 技术选型与方案设计

2.1 MiniRocket模型的优势解析

MiniRocket（Minimal Random Convolutional Kernel Transform）是一种专门为时间序列分类设计的高效模型。相比传统的时间序列分类方法，它具有以下几个显著优势：

计算效率极高：MiniRocket的训练速度远超深度学习方法，这使得它特别适合处理航空领域的大规模时序数据。在实际测试中，MiniRocket的训练时间通常只有深度学习模型的1/10甚至更少。
优异的分类性能：在UCR时间序列分类基准测试中，MiniRocket在多个数据集上都达到了最优性能。这种强大的分类能力对于航空维护事件的准确检测至关重要。
多变量时序支持：MiniRocket天然支持多变量时间序列输入，完美适配我们的23维传感器数据。它能够自动捕捉不同传感器之间的关联关系，这是单变量时序模型无法实现的。
参数敏感性低：MiniRocket对超参数的调整不敏感，这意味着它可以在不同数据集上保持稳定的性能表现，减少了调参的工作量。

2.2 评估指标的慎重选择

由于NGAFID数据集中维护前（故障）航班和维护后（正常）航班的数量存在明显不平衡，评估指标的选择需要格外谨慎：

指标	受不平衡影响	适用性分析
准确率	高	在不平衡数据中容易产生误导，例如90%预测为正常也能达到90%准确率
F1分数	中等	关注少数类的检测效果，但仅反映特定阈值下的性能
ROC-AUC	低	综合考察所有可能的分类阈值，提供更全面的性能评估，因此被选为主要评估指标

在实际应用中，我们同时监控这三个指标，但以ROC-AUC作为核心评估标准，确保模型在各种情况下都能保持稳定的性能。

3. 数据处理与特征工程

3.1 数据预处理流程

原始数据需要经过一系列预处理步骤才能输入模型：

数据加载与整合：由于原始论文的NGAFID_Dataset_Manager依赖远程下载，在本地环境下无法使用，我们开发了SimpleDM作为替代方案。这个自定义的数据管理器负责加载和处理CSV和pickle格式的原始数据。

python复制class SimpleDM:
    pass

dm = SimpleDM()
dm.flight_header_df = pd.read_csv(
    os.path.join(DATA_DIR, 'flight_header.csv'),
    index_col='Master Index'
)
with open(os.path.join(DATA_DIR, 'flight_data.pkl'), 'rb') as f:
    dm.data_dict = pickle.load(f)

归一化处理：不同传感器的量纲和取值范围差异很大，我们采用Min-Max归一化将所有特征缩放到[0,1]区间：

python复制stats_numeric = stats.drop(columns=['cluster'])
dm.mins = stats_numeric.loc[1].values.astype(np.float32)
dm.maxs = stats_numeric.loc[0].values.astype(np.float32)

缺失值处理：对于可能存在的缺失值，我们使用np.nan_to_num进行填充，确保数据完整性。

3.2 时序长度标准化策略

NGAFID数据集的一个显著特点是各航班的时间序列长度不一致（605~20,679步），而MiniRocket要求固定长度的输入。我们设计了以下处理方案：

python复制def pad_or_truncate(data_list, target_len=3000):
    result = []
    for arr in data_list:
        T = arr.shape[0]
        if T >= target_len:
            arr = arr[:target_len, :]        # 截断
        else:
            pad = np.zeros((target_len - T, arr.shape[1]), dtype=np.float32)
            arr = np.concatenate([arr, pad], axis=0)  # 填充
        result.append(arr)
    return np.array(result, dtype=np.float32).transpose(0, 2, 1)

关于target_len的选择，我们进行了详细的权衡分析：

目标长度	数据保留比例	内存占用	适用环境	优缺点分析
200	约4%	~160MB	CPU（内存紧张）	计算效率高但信息损失严重
500	约10%	~400MB	CPU（较充裕）	平衡了效率和信息保留
3000	约57%	~2.4GB	T4 GPU（推荐）	保留最多信息但需要强大计算资源

经过实验验证，我们最终选择3000作为目标长度，在GPU环境下实现了最佳的分类性能。

4. 模型训练与评估

4.1 五折交叉验证实现

为确保评估结果的可靠性，我们采用了严格的五折交叉验证方案：

python复制for fold in tqdm(range(5)):
    # 数据准备
    train_dict = dm.get_numpy_dataset(fold=fold, training=True)
    test_dict = dm.get_numpy_dataset(fold=fold, training=False)
    
    # 数据预处理
    train_X = pad_or_truncate(train_dict['data'], target_len=3000)
    train_X = (train_X - mins23) / (maxs23 - mins23)
    train_X = np.nan_to_num(train_X, copy=False)
    train_Y = np.array(train_dict['before_after'])
    
    # MiniRocket特征提取
    mrf = MiniRocketFeatures(train_X.shape[1], train_X.shape[2]).to(default_device())
    mrf.fit(train_X, chunksize=64)
    X_feat = get_minirocket_features(
        np.concatenate([train_X, test_X]), mrf, chunksize=64, to_np=True
    )
    
    # 模型训练
    learn = Learner(dls, model, metrics=accuracy,
                    cbs=[ShowGraph(), CSVLogger(save_filename)])
    learn.fit_one_cycle(200, 2.5e-5)
    
    # 性能评估
    preds, targets = learn.get_preds(ds_idx=1)
    pred_probs = preds[:, 1].numpy()
    pred_labels = preds.argmax(dim=1).numpy()
    acc = (pred_labels == test_Y).mean()
    f1 = f1_score(test_Y, pred_labels, average='binary')
    auc = roc_auc_score(test_Y, pred_probs)
    
    print(f"Fold {fold} → Accuracy: {acc:.4f} F1: {f1:.4f} ROC-AUC: {auc:.4f}")

4.2 实验结果与分析

经过五折交叉验证，我们获得了以下实验结果：

Fold	Accuracy	F1	ROC-AUC
Fold 0	0.6170	0.6051	0.6538
Fold 1	0.6151	0.6114	0.6485
Fold 2	0.6138	0.5974	0.6490
Fold 3	0.6147	0.5905	0.6557
Fold 4	0.6090	0.5915	0.6551
均值	0.6139	0.5992	0.6524
标准差	0.0027	0.0080	0.0030

从结果可以看出：

模型在各折上的表现相当稳定，标准差很小，说明模型具有良好的泛化能力。
ROC-AUC作为主要指标达到了0.6524±0.0030，考虑到数据的不平衡性和复杂性，这是一个相当不错的结果。
准确率和F1分数略低，这与数据的不平衡性有关，也是我们选择ROC-AUC作为主要指标的原因。

4.3 训练过程监控

在GPU环境下（target_len=3000）的训练曲线显示：

训练损失持续稳定下降，从约0.69降至0.60
验证损失整体呈下降趋势，从约0.69降至0.66
两条曲线走势基本一致，没有出现明显的过拟合现象
相比target_len=200时的结果，模型性能有明显提升

5. 关键问题与解决方案

5.1 内存管理挑战

在处理长时间序列时，内存消耗是一个主要瓶颈。我们遇到了以下问题及解决方案：

问题现象	原因分析	解决方案
RAM崩溃（OOM）	target_len=3000时内存约2.4GB	在CPU环境下减小target_len，或切换到GPU环境
训练速度极慢	CPU计算能力有限	使用GPU加速计算
数据加载时间过长	原始数据格式效率不高	优化数据加载流程，使用更高效的数据结构

5.2 代码实现细节

在实现过程中，我们积累了一些宝贵的经验：

版本兼容性问题：

python复制# 原始方案（存在兼容性问题）
dls.test_dl(test_X)

# 改进方案（更稳定）
learn.get_preds(ds_idx=1)

随机种子设置：为确保实验可重复性，我们固定了所有可能的随机源：

python复制SEED = 42
random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(SEED)

路径参数化：避免硬编码路径，提高代码可移植性：

python复制FILE_ID = '你的文件ID'
DATA_DIR = '/content/2days'
if not os.path.exists(DATA_DIR):
    gdown.download(f'https://drive.google.com/uc?id={FILE_ID}',
                   '/content/2days.tar.gz', quiet=False)
    !tar -xzf /content/2days.tar.gz -C /content/

6. 项目总结与展望

6.1 主要经验总结

通过本项目，我们获得了以下宝贵经验：

内存与性能的平衡：target_len的选择需要在内存占用和信息保留之间找到最佳平衡点。在实践中，应根据可用硬件资源灵活调整。
评估指标的重要性：在不平衡数据集中，选择合适的评估指标至关重要。ROC-AUC因其对类别不平衡的鲁棒性而成为我们的首选。
可复现性的保障：从项目开始就设置随机种子、参数化路径等措施，可以大大减少后期调试的难度。
版本兼容性：深度学习框架的版本差异可能导致意外错误，保持环境一致性或使用兼容性更好的API是明智之举。

6.2 未来改进方向

基于当前成果，我们规划了以下几个改进方向：

扩展实验规模：在T4 GPU环境下使用target_len=3000完成更全面的实验，包括增加训练轮数到300-500轮，观察性能是否还能提升。
模型对比研究：尝试其他先进的时间序列分类模型，如InceptionTime、TST等，与MiniRocket进行系统对比。
处理类别不平衡：探索过采样技术或加权损失函数，进一步提升对少数类（维护前航班）的识别能力。
特征工程优化：研究更精细的特征提取方法，可能结合领域知识设计专门的预处理流程。
实时检测系统：将模型部署为实时监测系统，在实际航空维护场景中进行验证和完善。