用Python处理IEMOCAP情感标签：从原始TXT文件到可用的数据集（附完整代码）

美剧商务英语口语

用Python构建IEMOCAP情感分析数据集的工程化实践

第一次接触IEMOCAP语料库的研究者，往往会被其分散的标注文件和复杂的目录结构所困扰。这个包含11种情感标签的语音数据库，在实际应用中却存在诸多"坑点"——从异常标签处理到Pandas版本兼容性问题。本文将分享一套经过实战检验的数据处理方案，帮助你快速构建可用于机器学习模型训练的结构化数据集。

1. IEMOCAP数据结构解析与预处理策略

IEMOCAP语料库采用分层存储结构，每个Session包含约12小时的语音对话数据。原始标注文件以TXT格式存储在/SessionX/dialog/EmoEvaluation/路径下，而对应的WAV文件则分散在/sentences/wav/的子目录中。这种设计虽然便于人工标注，却给程序化处理带来了挑战。

典型目录结构示例：

code复制IEMOCAP/
├── Session1/
│   ├── dialog/
│   │   └── EmoEvaluation/
│   │       ├── Ses01F_impro01.txt
│   │       └── ...
│   └── sentences/
│       └── wav/
│           ├── Ses01F_impro01/
│           │   ├── Ses01F_impro01_F000.wav
│           │   └── ...
├── Session2/
└── ...

处理这类数据时，需要特别注意三个关键问题：

标签映射不一致性：原始标注使用缩写代码（如"ang"代表愤怒），但实际应用中可能需要转换为数字标签
异常标签处理："oth"(other)和"dis"(disgust)等边缘标签出现频率低但可能影响模型训练
文件路径拼接：WAV文件的实际存储路径需要通过解析TXT文件名动态构建

提示：建议在处理前先统计各标签的分布情况，异常标签占比低于1%时可直接过滤，避免引入噪声。

2. 健壮的数据提取管道实现

构建可靠的数据处理管道需要解决工程实践中的多个实际问题。以下代码展示了一个经过生产环境验证的解决方案：

python复制import os
import pandas as pd
from collections import defaultdict

def validate_iemocap_structure(base_path):
    """验证IEMOCAP目录结构完整性"""
    required_sessions = {f'Session{i}' for i in range(1,6)}
    existing_sessions = {d for d in os.listdir(base_path) 
                        if os.path.isdir(os.path.join(base_path, d))}
    missing = required_sessions - existing_sessions
    if missing:
        raise FileNotFoundError(f"缺少必要Session目录: {missing}")

def parse_emotion_label(raw_label, strict_mode=False):
    """标准化情感标签处理（支持4类和9类分类体系）"""
    label_mapping = {
        # 基础4类
        'ang': 0, 'hap': 1, 'sad': 2, 'neu': 3,
        # 扩展标签
        'exc': 1, 'fru': 4, 'fea': 5, 'sur': 6,
        # 异常标签
        'oth': -1, 'dis': -1, 'xxx': -1
    }
    normalized = label_mapping.get(raw_label.lower(), -1)
    
    if strict_mode and normalized == -1:
        raise ValueError(f"非法情感标签: {raw_label}")
    return normalized if normalized != -1 else None

def build_filepath(session, dialog_file, wav_segment, base_path):
    """动态构建WAV文件绝对路径"""
    dialog_name = os.path.splitext(os.path.basename(dialog_file))[0]
    return os.path.join(
        base_path, session, "sentences", "wav", 
        dialog_name, f"{wav_segment}.wav"
    )

关键改进点说明：

增加了目录结构验证环节，避免因路径错误导致后续处理失败
标签处理函数支持strict模式，便于调试阶段快速发现问题
使用os.path进行路径操作，确保跨平台兼容性
采用字典映射替代多重if-else，提升代码可维护性

3. Pandas版本兼容性解决方案

原始代码中使用的pd.read_csv(delimiter="\n")方式在Pandas 1.0+版本会出现解析错误。这是新旧版本API变更导致的典型兼容性问题。我们推荐以下两种解决方案：

方案对比表：

方法	优点	缺点	适用场景
降级Pandas	简单直接	可能影响其他项目	短期快速解决
使用通用解析器	版本无关	需要额外处理	长期维护项目

推荐采用版本无关的通用解析方案：

python复制def safe_read_txt_annotations(file_path):
    """安全读取TXT标注文件（兼容各Pandas版本）"""
    with open(file_path, 'r', encoding='utf-8') as f:
        # 跳过文件头
        lines = [line.strip() for line in f.readlines()[1:] if line.strip()]
    
    # 提取有效数据行（包含波形片段和标签）
    records = []
    for line in lines:
        if '[' not in line:
            continue
            
        try:
            parts = [p.strip() for p in line.split('\t') if p.strip()]
            if len(parts) >= 3:
                records.append({
                    'segment': parts[1],
                    'emotion': parts[2]
                })
        except Exception as e:
            print(f"解析失败行: {line} | 错误: {str(e)}")
    
    return pd.DataFrame(records)

这种方法完全不依赖Pandas的特定版本API，通过基础文件操作实现可靠解析，特别适合需要长期维护的项目。

4. 完整数据处理流程与质量检查

将各个组件组装成完整的数据处理流水线时，需要建立质量检查机制。以下是一个包含数据验证环节的完整示例：

python复制def process_iemocap_dataset(base_path, output_file, emotion_classes=4):
    """端到端数据处理流程"""
    validate_iemocap_structure(base_path)
    
    all_data = []
    label_dist = defaultdict(int)
    
    for session in [f'Session{i}' for i in range(1, 6)]:
        annotation_dir = os.path.join(base_path, session, 'dialog', 'EmoEvaluation')
        
        for txt_file in [f for f in os.listdir(annotation_dir) if f.endswith('.txt')]:
            df = safe_read_txt_annotations(os.path.join(annotation_dir, txt_file))
            
            for _, row in df.iterrows():
                label = parse_emotion_label(row['emotion'], emotion_classes==4)
                if label is None:  # 过滤异常标签
                    label_dist['filtered'] += 1
                    continue
                    
                wav_path = build_filepath(
                    session, txt_file, row['segment'], base_path
                )
                
                if not os.path.exists(wav_path):
                    label_dist['missing'] += 1
                    continue
                    
                all_data.append((wav_path, label))
                label_dist[label] += 1
    
    # 保存数据集并输出统计信息
    final_df = pd.DataFrame(all_data, columns=['path', 'label'])
    final_df.to_csv(output_file, index=False)
    
    print("数据处理完成，标签分布统计：")
    for k, v in sorted(label_dist.items()):
        print(f"{k}: {v}项 ({v/len(all_data):.1%})")
    
    return final_df

质量检查要点：

记录过滤掉的异常标签数量
验证WAV文件实际存在性
输出详细的标签分布统计
保存处理后的结构化数据（CSV格式）

5. 高级技巧与性能优化

当处理完整IEMOCAP数据集时，性能可能成为瓶颈。以下是几个经过验证的优化策略：

并行处理实现：

python复制from concurrent.futures import ThreadPoolExecutor

def parallel_process_session(args):
    """并行处理单个Session数据"""
    base_path, session = args
    session_data = []
    
    annotation_dir = os.path.join(base_path, session, 'dialog', 'EmoEvaluation')
    txt_files = [f for f in os.listdir(annotation_dir) if f.endswith('.txt')]
    
    for txt_file in txt_files:
        df = safe_read_txt_annotations(os.path.join(annotation_dir, txt_file))
        # ...处理逻辑与之前相同...
    
    return session_data

def optimized_pipeline(base_path, output_file, workers=4):
    """多线程版本处理流程"""
    with ThreadPoolExecutor(max_workers=workers) as executor:
        results = executor.map(
            parallel_process_session,
            [(base_path, f'Session{i}') for i in range(1, 6)]
        )
    
    all_data = [item for sublist in results for item in sublist]
    # ...后续处理与之前相同...