Python电商数据分析实战：从清洗到可视化-代码聚汇网

Python电商数据分析实战：从清洗到可视化

CarrieYung

1. 项目概述：Python电商数据分析实战

电商数据分析是数据科学领域最实用的技能之一。作为从业多年的数据分析师，我经常需要从零散的销售数据中提取商业洞见。这次我将分享一个真实案例：使用Python分析某电商平台的销售数据，涵盖从数据获取到可视化分析的全流程。

这个项目特别适合以下人群：

想转型数据分析的Python开发者
电商运营人员需要自主分析销售数据
数据科学初学者寻找实战项目

我们将使用Python生态中最主流的工具链：

Pandas进行数据清洗和转换
SQLAlchemy作为ORM与数据库交互
Matplotlib/Seaborn制作专业图表
Jupyter Notebook作为开发环境

提示：本文所有代码都经过真实数据集验证，可以直接套用到你的分析项目中。我会特别标注那些只有实战才能获得的经验技巧。

2. 环境准备与数据获取

2.1 开发环境配置

推荐使用Anaconda创建独立环境：

bash复制conda create -n ecommerce python=3.9
conda activate ecommerce
pip install pandas sqlalchemy matplotlib seaborn jupyter

对于数据库，我选择PostgreSQL+SQLAlchemy的组合：

bash复制pip install psycopg2-binary

2.2 数据源说明

我们分析的数据集包含：

订单表（orders）：订单ID、用户ID、下单时间、支付金额等
用户表（users）：用户ID、注册时间、地域信息等
商品表（products）：商品ID、品类、价格等
订单明细表（order_items）：订单ID、商品ID、购买数量等

注意：真实电商数据往往存在大量脏数据，比如：

测试订单（金额为0或极小值）

退货订单状态未更新

商品分类信息缺失
这些都需要在分析前处理。

3. 数据库建模与连接

3.1 SQLAlchemy模型设计

python复制from sqlalchemy import create_engine, Column, Integer, String, Float, DateTime, ForeignKey
from sqlalchemy.orm import relationship, declarative_base

Base = declarative_base()

class User(Base):
    __tablename__ = 'users'
    id = Column(Integer, primary_key=True)
    register_date = Column(DateTime)
    province = Column(String(50))
    city = Column(String(50))
    orders = relationship("Order", back_populates="user")

class Product(Base):
    __tablename__ = 'products' 
    id = Column(Integer, primary_key=True)
    category = Column(String(100))
    price = Column(Float)
    order_items = relationship("OrderItem", back_populates="product")

class Order(Base):
    __tablename__ = 'orders'
    id = Column(Integer, primary_key=True) 
    user_id = Column(Integer, ForeignKey('users.id'))
    order_time = Column(DateTime)
    amount = Column(Float)
    user = relationship("User", back_populates="orders")
    items = relationship("OrderItem", back_populates="order")

class OrderItem(Base):
    __tablename__ = 'order_items'
    id = Column(Integer, primary_key=True)
    order_id = Column(Integer, ForeignKey('orders.id')) 
    product_id = Column(Integer, ForeignKey('products.id'))
    quantity = Column(Integer)
    order = relationship("Order", back_populates="items")
    product = relationship("Product", back_populates="order_items")

3.2 数据库连接最佳实践

建议使用连接池提高性能：

python复制from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker

engine = create_engine(
    'postgresql://user:password@localhost:5432/ecommerce',
    pool_size=10,
    max_overflow=20,
    pool_timeout=30
)

SessionLocal = sessionmaker(autocommit=False, autoflush=False, bind=engine)

踩坑记录：曾经因为没设置pool_recycle导致MySQL连接8小时后自动断开。解决方案：
python复制engine = create_engine(..., pool_recycle=3600)  # 1小时回收连接

4. 数据分析核心流程

4.1 数据清洗实战技巧

常见问题处理方案：

python复制import pandas as pd
from sqlalchemy import func

# 获取原始数据
with SessionLocal() as session:
    orders = pd.read_sql(
        session.query(Order).filter(Order.amount > 10).statement, 
        session.bind
    )

# 处理缺失值
orders['province'] = orders['province'].fillna('未知')

# 处理异常值
q1, q3 = orders['amount'].quantile([0.25, 0.75])
iqr = q3 - q1
orders = orders[
    (orders['amount'] >= q1 - 1.5*iqr) & 
    (orders['amount'] <= q3 + 1.5*iqr)
]

# 日期转换
orders['order_date'] = pd.to_datetime(orders['order_time']).dt.date

4.2 关键指标分析

4.2.1 销售趋势分析

python复制import matplotlib.pyplot as plt

daily_sales = orders.groupby('order_date')['amount'].sum()

plt.figure(figsize=(12, 6))
daily_sales.plot(kind='line', title='日销售额趋势')
plt.xlabel('日期')
plt.ylabel('销售额(元)')
plt.grid(True)
plt.show()

4.2.2 用户价值分析

RFM模型实现：

python复制from datetime import datetime

# 计算RFM指标
snapshot_date = orders['order_date'].max() + pd.Timedelta(days=1)

rfm = orders.groupby('user_id').agg({
    'order_date': lambda x: (snapshot_date - x.max()).days,
    'id': 'count',
    'amount': 'sum'
}).rename(columns={
    'order_date': 'recency',
    'id': 'frequency', 
    'amount': 'monetary'
})

# 分箱评分
rfm['R_score'] = pd.qcut(rfm['recency'], 5, labels=[5,4,3,2,1])
rfm['F_score'] = pd.qcut(rfm['frequency'], 5, labels=[1,2,3,4,5])
rfm['M_score'] = pd.qcut(rfm['monetary'], 5, labels=[1,2,3,4,5])
rfm['RFM_score'] = rfm['R_score'].astype(str) + rfm['F_score'].astype(str) + rfm['M_score'].astype(str)

4.3 商品关联分析

使用Apriori算法发现商品组合规律：

python复制from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

# 构建订单-商品矩阵
order_product = pd.crosstab(
    orders['id'], 
    orders['items'].apply(lambda x: x.product.category)
)

# 挖掘频繁项集
frequent_itemsets = apriori(order_product, min_support=0.02, use_colnames=True)

# 提取关联规则
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)
rules.sort_values('confidence', ascending=False, inplace=True)

5. 性能优化技巧

5.1 数据库查询优化

避免N+1查询问题：

python复制# 错误示范（产生N+1查询）
with SessionLocal() as session:
    orders = session.query(Order).limit(100).all()
    for order in orders:  # 每次循环都会查询user表
        print(order.user.province)

# 正确做法（使用joinedload）
from sqlalchemy.orm import joinedload

with SessionLocal() as session:
    orders = session.query(Order).options(
        joinedload(Order.user)
    ).limit(100).all()
    for order in orders:  # 预先加载user数据
        print(order.user.province)

5.2 大数据处理策略

对于超百万条记录：

使用分块查询

python复制def chunk_query(query, chunk_size=10000):
    offset = 0
    while True:
        chunk = query.offset(offset).limit(chunk_size).all()
        if not chunk:
            break
        yield chunk
        offset += chunk_size

使用Pandas直接读取SQL

python复制# 比ORM转换更高效
df = pd.read_sql("SELECT * FROM orders WHERE amount > 100", engine)

6. 常见问题排查

6.1 连接池耗尽

症状：获取连接超时
解决方案：

检查是否有未关闭的session
增加连接池大小
添加连接回收时间

6.2 查询性能低下

优化步骤：

使用EXPLAIN ANALYZE分析SQL
添加适当的索引

python复制# 在模型定义中添加
__table_args__ = {'mysql_engine':'InnoDB', 'mysql_charset':'utf8mb4'}

6.3 内存不足

处理大数据集的技巧：

使用生成器替代列表
分批次处理数据
使用Dask替代Pandas

7. 分析报告生成

7.1 自动化报告模板

使用Jinja2生成HTML报告：

python复制from jinja2 import Template

template = Template('''
<h1>电商销售分析报告</h1>
<p>分析时段: {{ start_date }} 至 {{ end_date }}</p>
<h2>核心指标</h2>
<ul>
    <li>总销售额: {{ total_sales }}</li>
    <li>订单量: {{ order_count }}</li>
    <li>客单价: {{ avg_order_value }}</li>
</ul>
''')

report_html = template.render(
    start_date=orders['order_date'].min(),
    end_date=orders['order_date'].max(),
    total_sales=orders['amount'].sum(),
    order_count=len(orders),
    avg_order_value=orders['amount'].sum()/len(orders)
)

7.2 可视化仪表盘

使用Plotly创建交互式图表：

python复制import plotly.express as px

fig = px.sunburst(
    orders,
    path=['province', 'city'],
    values='amount',
    title='地域销售分布'
)
fig.show()

在完成这个项目后，我总结了几个特别实用的经验：

电商数据清洗时，要特别注意测试数据和异常订单的过滤
使用SQLAlchemy的bulk_insert_mappings能显著提高批量插入性能
对于时间序列分析，务必确保时区统一
RFM模型的评分标准需要根据业务特点调整