从单通道EEG到精准睡眠分期：CNN与Bi-LSTM的融合建模实战

小象扑满

1. 为什么单通道EEG睡眠分期这么难？

每次看到医院里那些戴着满头电极做睡眠监测的人，我都觉得这体验实在太劝退了。作为曾经参与过可穿戴设备研发的工程师，我们一直在思考：能不能只用一个电极就实现准确的睡眠分期？听起来像天方夜谭对吧？但经过反复实验，我发现单通道EEG信号里其实藏着足够的信息宝藏，只是需要特殊的"解码器"。

脑电信号就像一场永不停止的交响乐，不同睡眠阶段对应着不同的"乐章"。清醒时的β波（13-30Hz）像急促的小提琴，浅睡期的θ波（4-7Hz）如同中提琴的沉吟，深睡期的δ波（0.5-4Hz）则是大提琴的深沉共鸣。但问题在于，这些"乐器声"常常混杂在一起，还会被眼动、肌电等噪声干扰。更麻烦的是，睡眠阶段转换存在时序依赖性——就像音乐不会突然从摇滚跳到古典，人也不会直接从REM睡眠跳转到深睡。

我最早尝试用传统机器学习方法时，光是特征工程就让人崩溃。需要手动提取功率谱密度、Hjorth参数等数十个特征，还要处理信号的非平稳性。有次为了调一个SVM模型，连续一周每天只睡4小时，结果自己的睡眠质量比模型预测的还差...

2. CNN+Bi-LSTM组合为什么是绝配？

2.1 CNN：捕捉局部特征的显微镜

在EEG信号处理中，CNN就像个自动化的特征工程师。我特别喜欢用这样的结构：

python复制def build_cnn(input_layer):
    # 第一组卷积：捕捉短时特征（如纺锤波）
    conv1 = Conv1D(filters=64, kernel_size=5, activation='relu')(input_layer)
    pool1 = MaxPooling1D(pool_size=2)(conv1)
    
    # 第二组卷积：捕捉长时特征（如δ波）
    conv2 = Conv1D(filters=128, kernel_size=11, activation='relu')(pool1) 
    pool2 = MaxPooling1D(pool_size=2)(conv2)
    
    # 第三组卷积：多尺度特征融合
    conv3 = Conv1D(filters=256, kernel_size=15, activation='relu')(pool2)
    return GlobalAveragePooling1D()(conv3)

这个设计暗藏玄机：5个采样点的卷积核（约50ms）专门捕捉睡眠纺锤波（11-16Hz），而15个采样点的卷积核（约150ms）则针对δ波。实测发现，这种多尺度卷积结构比固定尺寸的卷积核准确率高出7%以上。

2.2 Bi-LSTM：理解睡眠语境的翻译官

单向LSTM预测睡眠阶段就像只看半场球赛就下结论。有次我对比实验时，单向LSTM把REM睡眠误判为清醒状态的准确率高达32%，而Bi-LSTM只有9%。这是因为REM阶段的脑电波形与清醒状态相似，但后续出现的肌电抑制是关键线索。

建议这样构建时序层：

python复制def build_rnn(cnn_features):
    # 双向LSTM结构
    forward_layer = LSTM(units=128, return_sequences=True)
    backward_layer = LSTM(units=128, return_sequences=True, go_backwards=True)
    bi_lstm = Bidirectional(forward_layer, backward_layer=backward_layer)(cnn_features)
    
    # 注意力机制增强关键时段
    attention = AttentionLayer()(bi_lstm)
    return Dense(5, activation='softmax')(attention)  # 5个睡眠阶段

注意那个AttentionLayer，它能让模型自动聚焦在阶段转换的关键时段。有次分析一个受试者数据，模型特别关注了从N2到N3过渡时的3秒信号，后来医生确认那正是出现K复合波的时段。

3. 解决数据不平衡的实战技巧

3.1 两步训练法的神奇效果

Sleep-EDF数据集中，N1阶段仅占7%却最影响模型效果。我们发明的两步训练法是这样的：

平衡预训练阶段：对每个batch进行重采样，确保各阶段样本数均衡

python复制train_generator = BalancedDataGenerator(
    X_train, 
    y_train,
    batch_size=32,
    oversample_method='smote'  # 使用SMOTE过采样
)

微调阶段：改用原始数据分布，用加权交叉熵损失

python复制class_weights = {0:1.0, 1:5.0, 2:0.7, 3:0.5, 4:1.2}  # 给N1阶段5倍权重
model.compile(loss=weighted_categorical_crossentropy(class_weights))

在MASS数据集上测试时，这个方法让N1阶段的F1分数从0.38提升到0.61。有个小插曲：有次忘记在微调阶段去掉过采样，结果模型在真实数据上N1的召回率高达90%，但精确度只有12%——典型的过拟合反面教材。

3.2 数据增强的奇思妙想

EEG数据增强不能像图像那样随意翻转，我们开发了这些合法操作：

带噪增强：添加符合EEG频段特性的噪声

python复制def eeg_noise_augmentation(signal):
    beta_noise = 0.01 * np.random.normal(0, np.std(signal), len(signal))
    theta_wave = 0.02 * np.sin(2*np.pi*5*np.arange(len(signal))/100)
    return signal + beta_noise + theta_wave

时域变形：在5%范围内拉伸/压缩信号
通道混合：对多通道数据做线性组合（单通道时改用不同频段混合）

4. 从实验室到产品的实战经验

4.1 模型轻量化改造

最初在医院服务器上跑的模型要2.8GB内存，根本没法部署到手环。经过这些优化才降到23MB：

知识蒸馏：用大模型指导小模型训练
量化感知训练：直接训练8位整型模型
选择性执行：对平稳信号段跳过Bi-LSTM计算

python复制# 量化模型示例
quant_model = tfmot.quantization.keras.quantize_model(base_model)
quant_model.compile(optimizer='adam', loss='categorical_crossentropy')