Pandas数据预处理实战：从清洗到特征工程-代码聚汇网

Pandas数据预处理实战：从清洗到特征工程

大雄行为锻炼

1. 数据预处理的重要性与Pandas优势

数据预处理是机器学习项目中最容易被低估却至关重要的环节。在实际项目中，我们常常发现原始数据存在各种问题：缺失值、异常值、格式不一致、量纲不统一等。这些问题如果不处理，会直接影响后续模型的训练效果。

Pandas作为Python数据分析的核心库，提供了强大的数据清洗和转换能力。我曾在多个实际项目中验证过，合理的数据预处理往往能让模型效果提升20%以上。特别是在处理结构化数据时，Pandas的性能和灵活性远超其他工具。

注意：数据预处理通常占整个数据分析项目70%以上的时间，这是正常现象。不要试图跳过或简化这个步骤。

2. 数据加载与初步探索

2.1 数据加载的最佳实践

python复制import pandas as pd

# 读取CSV文件的最佳实践
df = pd.read_csv('dataset.csv', 
                 encoding='utf-8', 
                 parse_dates=['date_column'],
                 na_values=['NA', 'null', '--'])

这里有几个关键点：

明确指定编码格式，避免中文乱码
对日期列使用parse_dates自动转换
自定义缺失值标识符，确保数据一致性

2.2 数据探索的5个必看指标

python复制# 1. 查看数据概览
print(df.info())

# 2. 描述性统计
print(df.describe(include='all'))

# 3. 缺失值统计
print(df.isnull().sum())

# 4. 唯一值统计
print(df.nunique())

# 5. 数据样本查看
print(df.sample(5))

这些指标能快速揭示数据问题。例如，我曾经在一个项目中通过nunique()发现某分类变量有200多个类别，而实际上正常应该只有5类，这提示了数据录入错误。

3. 数据清洗实战技巧

3.1 处理缺失值的3种策略

删除法：适合缺失比例小(<5%)且随机缺失的情况

python复制df.dropna(subset=['important_column'], inplace=True)

填充法：根据数据类型选择合适策略

python复制# 数值型：均值/中位数填充
df['age'].fillna(df['age'].median(), inplace=True)

# 分类型：众数填充
df['category'].fillna(df['category'].mode()[0], inplace=True)

标记法：保留缺失信息

python复制df['income_missing'] = df['income'].isnull().astype(int)

实战经验：不要盲目使用均值填充。我曾遇到年龄数据右偏的情况，使用中位数填充效果更好。

3.2 异常值处理的4种方法

标准差法：适用于正态分布数据

python复制mean = df['value'].mean()
std = df['value'].std()
df = df[(df['value'] > mean - 3*std) & (df['value'] < mean + 3*std)]

分位数法：适用于非正态分布

python复制Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)
IQR = Q3 - Q1
df = df[(df['value'] > Q1 - 1.5*IQR) & (df['value'] < Q3 + 1.5*IQR)]

业务规则法：根据领域知识设定阈值

python复制df = df[(df['age'] >= 18) & (df['age'] <= 100)]

转换法：对偏态数据取对数

python复制df['log_value'] = np.log1p(df['value'])

4. 数据标准化与特征工程

4.1 数据标准化的3种常用方法

方法	公式	适用场景	Pandas实现
Z-score标准化	(x - μ)/σ	数据分布近似正态	`df['col'] = (df['col'] - df['col'].mean())/df['col'].std()`
Min-Max标准化	(x - min)/(max - min)	数据有明确边界	`df['col'] = (df['col'] - df['col'].min())/(df['col'].max() - df['col'].min())`
Robust标准化	(x - median)/IQR	数据有异常值	`df['col'] = (df['col'] - df['col'].median())/(df['col'].quantile(0.75) - df['col'].quantile(0.25))`

4.2 分类变量编码的4种方式

One-Hot编码：适合无序分类变量

python复制pd.get_dummies(df, columns=['category'], prefix='cat')

标签编码：适合有序分类变量

python复制from sklearn.preprocessing import LabelEncoder
df['size'] = LabelEncoder().fit_transform(df['size'])

频数编码：用出现频率代替类别

python复制freq = df['city'].value_counts(normalize=True)
df['city_freq'] = df['city'].map(freq)

目标编码：用目标变量均值代替类别

python复制means = df.groupby('city')['price'].mean()
df['city_target'] = df['city'].map(means)

避坑指南：One-Hot编码可能导致维度爆炸，建议对高基数分类变量(>50类)使用其他编码方式。

5. 高级预处理技巧

5.1 时间特征工程

python复制# 提取时间特征
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['dayofweek'] = df['date'].dt.dayofweek
df['is_weekend'] = df['dayofweek'].isin([5,6]).astype(int)

# 计算时间差
df['days_since_event'] = (df['date'] - pd.to_datetime('2020-01-01')).dt.days

5.2 文本数据预处理

python复制# 简单文本清洗
df['text'] = df['text'].str.lower() \
                      .str.replace(r'[^\w\s]', '') \
                      .str.strip()

# 提取文本特征
df['char_count'] = df['text'].str.len()
df['word_count'] = df['text'].str.split().str.len()

6. 预处理流水线实现

6.1 使用Pipeline构建处理流程

python复制from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

# 定义数值和分类处理流程
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

# 组合处理流程
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)])

6.2 保存预处理结果

python复制# 保存处理后的数据
df.to_csv('cleaned_data.csv', index=False)

# 保存预处理对象
import joblib
joblib.dump(preprocessor, 'preprocessor.pkl')

7. 常见问题与解决方案

问题现象	可能原因	解决方案
模型效果不稳定	数据标准化不一致	确保训练和测试数据使用相同的scaler对象
分类变量出现新类别	测试集有新类别	在OneHotEncoder中设置handle_unknown='ignore'
内存不足	One-Hot编码维度太高	使用频数编码或目标编码替代
日期解析失败	格式不一致	先用pd.to_datetime()统一格式

在实际项目中，我遇到过一个典型问题：测试集中出现了训练集没有的类别。这导致One-Hot编码时维度不匹配。解决方法是在创建编码器时就设置handle_unknown参数，或者使用更鲁棒的编码方式。

8. 性能优化技巧

使用高效数据类型：

python复制# 转换数据类型减少内存
df['id'] = df['id'].astype('int32')
df['price'] = df['price'].astype('float32')

批量处理替代循环：

python复制# 不好的做法
for i in range(len(df)):
    df.loc[i,'new_col'] = some_function(df.loc[i,'col'])

# 好的做法
df['new_col'] = df['col'].apply(some_function)

使用eval()进行高效计算：

python复制df.eval('ratio = income / expense', inplace=True)

分块处理大数据集：

python复制chunksize = 100000
for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):
    process(chunk)

数据预处理是门艺术，需要根据具体数据和业务场景灵活调整。经过多次项目实践，我发现最有效的学习方式就是动手处理真实数据集，记录下每个问题的解决方案，逐渐积累经验。