Pandas数据清洗实战：缺失值与异常值处理技巧-代码聚汇网

Pandas数据清洗实战：缺失值与异常值处理技巧

我说老李你说黑

1. Pandas数据清洗实战指南：从入门到精通

在数据分析的实际工作中，我们遇到的数据往往存在各种问题：缺失值、异常值、格式混乱、重复记录...这些"脏数据"会严重影响分析结果的准确性。作为Python生态中最强大的数据处理工具，Pandas提供了完整的数据清洗解决方案。本文将基于我多年数据清洗实战经验，带你系统掌握Pandas数据清洗的核心技术与实用技巧。

数据清洗不是简单的步骤堆砌，而是需要根据业务场景灵活调整的工程实践。一个典型的数据清洗流程包括：数据读取→探索性分析→格式标准化→重复值处理→缺失值处理→异常值处理→文本处理→时间序列处理。每个环节都有其技术要点和陷阱，接下来我将结合具体案例详细解析。

2. 数据读取与初步探索

2.1 数据读取的正确姿势

Pandas支持读取各种格式的数据文件，最常用的是read_csv()和read_excel()。但实际工作中，我们经常会遇到编码问题、分隔符混乱等特殊情况：

python复制# 处理含中文的CSV文件
df = pd.read_csv('data.csv', encoding='gbk')  # 中文常用gbk编码

# 处理不规则分隔符
df = pd.read_csv('data.txt', sep='\s+')  # 匹配任意空白字符

# 读取大文件时优化内存
df = pd.read_csv('large_data.csv', usecols=['col1','col2'])  # 只读取必要列

提示：遇到编码问题时，可先用chardet库检测文件编码：
python复制import chardet
with open('data.csv', 'rb') as f:
    result = chardet.detect(f.read())
print(result['encoding'])

2.2 数据探索的核心方法

初步了解数据质量的两个核心方法是info()和describe()：

python复制# 查看数据结构
print(df.info())  # 显示列名、非空计数、数据类型

# 数值型统计摘要
print(df.describe(percentiles=[.1, .25, .5, .75, .9]))  # 自定义分位数

在实际项目中，我通常会扩展这个基础流程：

python复制def enhanced_describe(df):
    # 基础统计量
    desc = df.describe(include='all')
    
    # 添加缺失值比例
    missing = df.isnull().mean().to_frame('missing_ratio')
    
    # 添加唯一值计数
    unique = df.nunique().to_frame('unique_count')
    
    # 合并所有信息
    return pd.concat([desc.T, missing, unique], axis=1)

print(enhanced_describe(df))

3. 数据清洗核心技术

3.1 重复值处理实战

重复值处理看似简单，但实际业务中往往需要根据业务ID而非整行来判断重复：

python复制# 基于关键列判断重复
duplicate_rows = df.duplicated(subset=['order_id', 'user_id'], keep='first')

# 标记而非直接删除重复
df['is_duplicate'] = duplicate_rows.astype(int)

# 复杂场景下的重复判断
df['combined_key'] = df['col1'].astype(str) + '_' + df['col2'].astype(str)
duplicates = df.duplicated(subset=['combined_key'])

经验：电商数据中，同一用户短时间内(如5分钟)的相同订单很可能是重复提交，此时需要结合时间戳处理：
python复制df = df.sort_values(['user_id', 'product_id', 'order_time'])
df['time_diff'] = df.groupby(['user_id', 'product_id'])['order_time'].diff()
duplicates = (df['time_diff'] < pd.Timedelta(minutes=5)) & df.duplicated(subset=['user_id', 'product_id'])

3.2 缺失值处理的进阶技巧

3.2.1 删除策略的优化

简单粗暴的dropna()往往会损失大量数据，更合理的做法是：

python复制# 只删除关键列缺失的行
df_clean = df.dropna(subset=['user_id', 'order_amount'])

# 设置缺失比例阈值
missing_ratio = df.isnull().mean(axis=1)
df = df[missing_ratio < 0.3]  # 保留缺失比例<30%的行

3.2.2 智能填充方法

除了均值、中位数填充外，还有更精准的填充策略：

python复制# 分组填充：按用户分组后用组内中位数填充
df['income'] = df.groupby('user_type')['income'].transform(
    lambda x: x.fillna(x.median()))

# 时间序列填充：考虑节假日因素
holidays = ['2023-01-01', '2023-05-01']  # 定义节假日
df['sales'] = df['sales'].interpolate(
    method='time',
    limit_area='inside',
    limit_direction='both'
)

3.2.3 机器学习填充实践

对于复杂场景，可以使用机器学习模型预测缺失值：

python复制from sklearn.ensemble import RandomForestRegressor

# 准备训练数据
known = df[df['target'].notnull()]
unknown = df[df['target'].isnull()]

# 训练模型
model = RandomForestRegressor()
model.fit(known[features], known['target'])

# 预测缺失值
df.loc[df['target'].isnull(), 'target'] = model.predict(unknown[features])

3.3 异常值检测与处理

3.3.1 多维度异常检测

除了IQR方法，业务中常需要多维度联合判断：

python复制# 基于业务规则
df['is_abnormal'] = ((df['age'] > 100) | 
                     (df['income'] > 1e6) |
                     (df['purchase_freq'] > 30))

# 基于统计模型
from sklearn.ensemble import IsolationForest
clf = IsolationForest(contamination=0.01)
df['outlier_score'] = clf.fit_predict(df[['income', 'spending']])

3.3.2 异常值修正策略

不同业务场景需要不同的异常值处理方式：

python复制# 电商场景：限制单笔订单金额
max_order = df['order_amount'].quantile(0.99)
df['order_amount'] = np.where(
    df['order_amount'] > max_order,
    max_order,
    df['order_amount']
)

# 金融风控：标记但不修改
df['is_high_risk'] = (df['transaction_amount'] > 1e5).astype(int)

4. 特殊数据类型处理

4.1 文本数据清洗实战

文本清洗需要处理各种特殊情况：

python复制# 处理混合编码
def clean_text(text):
    if isinstance(text, bytes):
        text = text.decode('unicode_escape')
    return text.strip()
df['text'] = df['text'].apply(clean_text)

# 提取关键信息
df['phone'] = df['contact'].str.extract(r'(\d{3}-\d{8}|\d{4}-\d{7})')

# 表情符号处理
import emoji
df['text'] = df['text'].apply(lambda x: emoji.demojize(x) if pd.notnull(x) else x)

4.2 时间序列处理进阶

4.2.1 复杂时间解析

python复制# 处理多格式日期
def parse_date(date_str):
    try:
        return pd.to_datetime(date_str, format='%Y/%m/%d')
    except:
        try:
            return pd.to_datetime(date_str, format='%d-%m-%Y')
        except:
            return pd.NaT
            
df['order_date'] = df['date_str'].apply(parse_date)

# 处理时区问题
df['timestamp'] = pd.to_datetime(df['timestamp'], unit='s')
df['timestamp'] = df['timestamp'].dt.tz_localize('UTC').dt.tz_convert('Asia/Shanghai')

4.2.2 时间特征工程

python复制# 提取时间特征
df['order_hour'] = df['order_time'].dt.hour
df['is_weekend'] = df['order_time'].dt.dayofweek >= 5

# 计算时间间隔
df['days_since_last'] = df.groupby('user_id')['order_time'].diff().dt.days

# 创建时间窗口统计
df.set_index('order_time', inplace=True)
df['7d_avg_spend'] = df['amount'].rolling('7D').mean()

5. 高效清洗技巧与性能优化

5.1 向量化操作技巧

避免循环，使用Pandas内置向量化方法：

python复制# 条件赋值
df['discount'] = np.where(df['is_vip'], 0.8, 1.0)

# 多列同时处理
cols = ['price', 'cost', 'profit']
df[cols] = df[cols].apply(lambda x: x * 1.1)  # 统一涨价10%

# 正则表达式向量化
pattern = r'(\d{4})年(\d{1,2})月'
df[['year', 'month']] = df['date_str'].str.extract(pattern)

5.2 大数据集处理策略

当数据量超过内存时：

python复制# 分块处理
chunk_size = 100000
clean_chunks = []
for chunk in pd.read_csv('big_data.csv', chunksize=chunk_size):
    # 执行清洗操作
    chunk = preprocess(chunk)
    clean_chunks.append(chunk)
df_clean = pd.concat(clean_chunks)

# 使用Dask并行处理
import dask.dataframe as dd
ddf = dd.read_csv('big_data/*.csv')
ddf_clean = ddf.groupby('user_id').mean().compute()

5.3 清洗流程自动化

将清洗流程封装为可复用的Pipeline：

python复制from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, TransformerMixin

class DateCleaner(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        return self
        
    def transform(self, X):
        X['date'] = pd.to_datetime(X['date_str'])
        return X.drop('date_str', axis=1)

clean_pipeline = Pipeline([
    ('date_clean', DateCleaner()),
    ('fill_na', SimpleImputer(strategy='median')),
    ('outlier', OutlierHandler())
])

df_clean = clean_pipeline.fit_transform(df)

6. 实战案例：电商数据清洗全流程

让我们通过一个电商数据集综合运用各种技术：

python复制# 1. 数据读取
df = pd.read_csv('ecommerce.csv', parse_dates=['order_time', 'payment_time'])

# 2. 初步探索
print(enhanced_describe(df))

# 3. 处理缺失值
df['payment_method'] = df['payment_method'].fillna('unknown')
df['discount'] = df.groupby('user_level')['discount'].transform(
    lambda x: x.fillna(x.median()))

# 4. 异常订单检测
Q1 = df['amount'].quantile(0.25)
Q3 = df['amount'].quantile(0.75)
IQR = Q3 - Q1
df['is_abnormal'] = (df['amount'] > Q3 + 3*IQR) | (df['amount'] < Q1 - 3*IQR)

# 5. 时间特征工程
df['hour'] = df['order_time'].dt.hour
df['day_of_week'] = df['order_time'].dt.dayofweek
df['payment_delay'] = (df['payment_time'] - df['order_time']).dt.total_seconds()/3600

# 6. 文本清洗
df['product_name'] = df['product_name'].str.strip().str.lower()
df['brand'] = df['product_name'].str.extract(r'([a-z]+)\s*\d+')[0]

# 7. 保存清洗结果
df.to_parquet('cleaned_data.parquet', index=False)

在这个案例中，我们综合运用了：

智能缺失值填充（基于用户等级）
基于业务理解的异常值检测（3倍IQR）
时间差计算（订单到支付的延迟）
文本信息提取（从产品名提取品牌）
高效存储格式（Parquet）

7. 常见问题与解决方案

7.1 内存不足问题

问题表现：处理大文件时出现MemoryError

解决方案：

使用适当的数据类型：

python复制df['id'] = df['id'].astype('int32')  # 默认int64
df['price'] = pd.to_numeric(df['price'], downcast='float')

分块处理：

python复制for chunk in pd.read_csv('large.csv', chunksize=100000):
    process(chunk)

使用更高效的数据格式：

python复制df.to_parquet('data.parquet')  # 比CSV节省70%空间

7.2 清洗结果不一致

问题表现：同样的清洗代码在不同时间运行结果不同