Pandas数据分析实战：电商场景核心技巧

xuliagn

1. 为什么Pandas是数据分析师的瑞士军刀

第一次接触Pandas时，我被它简洁的API设计震撼到了——用几行代码就能完成Excel中需要复杂公式才能实现的操作。在电商公司做了三年数据分析后，我整理了一份高频使用的Pandas功能清单，这些功能覆盖了我日常80%的工作场景。不同于官方文档的全面介绍，这里只聚焦真正实用的核心功能，每个技巧都经过真实业务场景验证。

Pandas特别适合处理表格型数据，比如销售记录、用户行为日志、库存清单等结构化数据。它的DataFrame结构让数据操作变得直观，而背后基于NumPy的实现又保证了处理效率。我见过不少同事一开始用Excel处理数据，当数据量超过10万行就开始卡顿，转而学习Pandas后效率提升明显。

2. 数据加载与初步观察

2.1 读取各种格式的数据文件

实际工作中数据来源五花八门，Pandas的read_*系列函数是处理多源数据的统一入口。最常用的是读取CSV：

python复制df = pd.read_csv('sales.csv', encoding='gbk', parse_dates=['order_date'])

这里有两个实用参数：

encoding指定中文编码（国内企业数据常用gbk）
parse_dates自动将指定列转为datetime类型

对于Excel文件，我习惯先查看所有sheet名：

python复制xl = pd.ExcelFile('report.xlsx')
print(xl.sheet_names)  # 查看所有工作表
df = pd.read_excel(xl, 'Sheet1')

踩坑提醒：读取大型CSV时，使用chunksize参数分块加载避免内存溢出，比如chunksize=10000表示每次读取1万行

2.2 快速了解数据全貌

拿到新数据集后，我会用这套组合拳快速掌握数据情况：

python复制df.head(3)  # 查看前3行样本
df.info()  # 查看列数据类型和缺失情况
df.describe()  # 数值型列统计摘要
df['category'].value_counts()  # 查看分类分布

特别说明info()的输出含义：

RangeIndex：行数范围
Non-Null Count：非空值数量
Dtype：列数据类型
memory usage：内存占用（大数据集需关注）

3. 数据清洗实战技巧

3.1 处理缺失值的正确姿势

缺失值处理是清洗工作的重头戏。我常用的处理策略：

删除缺失：当缺失比例很低时（<5%）

python复制df.dropna(subset=['price'], inplace=True)  # 删除price列缺失的行

填充默认值：根据业务逻辑选择填充方式

python复制df['age'].fillna(df['age'].median(), inplace=True)  # 中位数填充
df['department'].fillna('未知部门', inplace=True)  # 固定值填充

标记缺失：有时缺失本身就有业务含义

python复制df['is_income_missing'] = df['income'].isna()  # 新增标记列

经验之谈：电商数据中，用户性别为空的往往购买转化率更低，这种缺失值得单独分析

3.2 数据类型转换的坑与解法

数据类型错误会导致各种诡异问题。这是我的类型转换checklist：

字符串转数字：

python复制df['price'] = pd.to_numeric(df['price'], errors='coerce')  # 无效值转NaN

时间字符串转datetime：

python复制df['order_time'] = pd.to_datetime(df['order_time'], format='%Y/%m/%d %H:%M')

分类数据优化：

python复制df['city'] = df['city'].astype('category')  # 内存占用减少80%

常见踩坑场景：

混有非数字字符的列直接转数字会报错
无明确格式的时间字符串转换效率极低
高基数列（如用户ID）不要转category

4. 数据筛选与排序的高效操作

4.1 布尔索引的进阶用法

筛选数据最常用的方法是布尔索引。几个实用技巧：

多条件组合：

python复制mask = (df['age'] > 30) & (df['city'] == '北京') 
df[mask]

使用query方法（适合复杂条件）：

python复制df.query('30 < age < 50 and gender == "F"')

模糊匹配：

python复制df[df['product_name'].str.contains('手机', na=False)]

性能提示：大数据集避免对字符串列使用str.contains，考虑先用df['col'].unique()获取唯一值再匹配

4.2 排序与抽样技巧

排序不只是sort_values那么简单：

多列排序：

python复制df.sort_values(['department', 'salary'], ascending=[True, False])

按自定义顺序排序：

python复制cat_order = ['初级', '中级', '高级']
df['level'] = pd.Categorical(df['level'], categories=cat_order, ordered=True)
df.sort_values('level')

随机抽样：

python复制df.sample(n=1000, random_state=42)  # 固定随机种子可复现

5. 数据聚合与透视分析

5.1 groupby的实战技巧

groupby是数据分析的核心操作，但很多人只用到皮毛：

多维度聚合：

python复制agg_df = df.groupby(['year', 'department']).agg({
    'sales': ['sum', 'mean'],
    'profit': lambda x: x[x>0].mean()  # 自定义聚合
})

分组后过滤：

python复制# 筛选销售额超过组内平均值50%的记录
df.groupby('category').filter(lambda g: g['sales'].mean() * 1.5 < g['sales'])

分组应用复杂函数：

python复制def top_n(df, n=3, column='sales'):
    return df.sort_values(column, ascending=False).head(n)
    
df.groupby('category').apply(top_n)

5.2 透视表比Excel更强大

pivot_table是快速分析交叉表的利器：

python复制pd.pivot_table(df, 
               index='department',
               columns='year',
               values='salary',
               aggfunc=['mean', 'count'],
               margins=True,  # 添加总计
               fill_value=0)

高级技巧：

使用pd.Grouper实现时间维度分组：

python复制df.pivot_table(index=pd.Grouper(key='date', freq='M'), 
               columns='product',
               values='sales')

6. 数据合并与重塑

6.1 多种合并方式对比

实际业务中经常需要合并多个数据源：

简单纵向拼接：

python复制pd.concat([df1, df2], ignore_index=True)

数据库风格的JOIN：

python复制pd.merge(orders, users, 
         left_on='user_id', 
         right_on='id',
         how='left')

按索引合并：

python复制products.join(prices, how='inner')

性能提示：大数据集合并时，先对连接键on列排序可提升速度

6.2 数据透视与逆透视

宽表转长表（melt）：

python复制pd.melt(df, 
        id_vars=['date', 'product'],
        value_vars=['q1', 'q2', 'q3', 'q4'],
        var_name='quarter',
        value_name='sales')

长表转宽表（pivot）：

python复制df.pivot(index='date', 
         columns='product', 
         values='sales')

7. 时间序列处理专项

7.1 时间属性的提取与转换

时间序列分析必备技能：

提取时间成分：

python复制df['year'] = df['order_time'].dt.year
df['day_of_week'] = df['order_time'].dt.day_name()

时区转换：

python复制df['time_utc'] = df['time_local'].dt.tz_localize('Asia/Shanghai').dt.tz_convert('UTC')

重采样：

python复制df.set_index('time').resample('D')['sales'].sum()

7.2 滚动窗口计算

移动平均只是开始，更多窗口函数：

简单滚动：

python复制df['7d_avg'] = df['sales'].rolling(7).mean()

带最小观测值的滚动：

python复制df['30d_min'] = df['price'].rolling(30, min_periods=10).min()

扩展窗口：

python复制df['cum_max'] = df['users'].expanding().max()

8. 性能优化与大数据处理

8.1 减少内存占用的技巧

当数据超过百万行时，内存优化很关键：

使用合适的数据类型：

python复制dtypes = {
    'id': 'int32',
    'price': 'float32',
    'category': 'category'
}
df = pd.read_csv('large.csv', dtype=dtypes)

分块处理：

python复制chunk_iter = pd.read_csv('huge.csv', chunksize=100000)
results = []
for chunk in chunk_iter:
    results.append(chunk.groupby('dept')['sales'].sum())
final = pd.concat(results).groupby(level=0).sum()

8.2 加速计算的秘籍

使用eval表达式：

python复制df.eval('profit = revenue - cost', inplace=True)

避免链式赋值：

python复制# 错误方式（会报SettingWithCopyWarning）
df[df['age']>30]['salary'] = 0

# 正确方式
df.loc[df['age']>30, 'salary'] = 0

使用numba加速自定义函数：

python复制from numba import jit

@jit
def complex_calc(ser):
    # 复杂计算逻辑
    return result

df['new_col'] = complex_calc(df['values'])

9. 实用输出与可视化

9.1 灵活的输出格式

导出为Excel并设置格式：

python复制with pd.ExcelWriter('report.xlsx') as writer:
    df.to_excel(writer, sheet_name='Summary')
    # 添加Excel格式
    workbook = writer.book
    worksheet = writer.sheets['Summary']
    format1 = workbook.add_format({'num_format': '#,##0'})
    worksheet.set_column('B:B', None, format1)

导出为Markdown表格：

python复制print(df.head().to_markdown(tablefmt="github"))

9.2 与Matplotlib的集成

Pandas内置的plot方法能快速可视化：

python复制df.groupby('month')['sales'].sum().plot(
    kind='bar',
    title='Monthly Sales',
    figsize=(10, 6),
    color='skyblue'
)

高级用法：

python复制ax = df.plot.scatter(x='age', y='income', alpha=0.3)
df.groupby('age')['income'].median().plot(ax=ax, color='red')

10. 实际案例：电商用户行为分析

结合一个真实案例展示Pandas的综合应用：

计算用户购买周期：

python复制user_cycle = df.groupby('user_id')['order_date'].agg(['min', 'max'])
user_cycle['cycle_days'] = (user_cycle['max'] - user_cycle['min']).dt.days

RFM用户分群：

python复制rfm = df.groupby('user_id').agg({
    'order_date': lambda x: (pd.to_datetime('today') - x.max()).days,
    'order_id': 'count',
    'amount': 'sum'
})
rfm.columns = ['recency', 'frequency', 'monetary']

使用qcut自动分箱：

python复制rfm['r_score'] = pd.qcut(rfm['recency'], q=5, labels=False)
rfm['f_score'] = pd.qcut(rfm['frequency'], q=5, labels=False)
rfm['m_score'] = pd.qcut(rfm['monetary'], q=5, labels=False)
rfm['total_score'] = rfm[['r_score','f_score','m_score']].sum(axis=1)