Python电商数据分析实战：从数据清洗到可视化-代码聚汇网

Python电商数据分析实战：从数据清洗到可视化

Huigr王

1. 电商数据分析的价值与Python的优势

电商行业每天产生海量销售数据，这些数据背后隐藏着巨大的商业价值。通过分析这些数据，我们可以了解产品销售趋势、用户购买行为、库存周转效率等关键信息，为运营决策提供数据支持。

Python作为数据分析的首选工具，具有以下优势：

丰富的数据处理库（Pandas、NumPy）
强大的可视化能力（Matplotlib、Seaborn）
简单易学的语法
活跃的社区支持
与其他技术栈的良好兼容性

提示：在实际项目中，建议使用Jupyter Notebook进行交互式分析，方便调试和展示结果。

2. 数据准备与环境搭建

2.1 Python环境配置

对于电商数据分析项目，推荐以下环境配置方案：

Python版本选择：建议使用Python 3.8+，这个版本在稳定性和性能之间取得了良好平衡

安装核心库：

bash复制pip install pandas numpy matplotlib seaborn jupyter

可选工具：
- Jupyter Notebook/Lab：交互式分析
- VS Code：代码编辑与调试
- PyCharm：专业IDE

2.2 数据获取与加载

电商销售数据通常包含以下字段：

订单ID
商品ID/名称
销售日期
销售数量
单价
总金额
客户信息
支付方式

我们可以使用Pandas加载CSV格式的数据：

python复制import pandas as pd

# 加载数据
df = pd.read_csv('sales_data.csv')

# 查看数据概览
print(df.head())
print(df.info())

3. 数据清洗与预处理

3.1 处理缺失值与异常值

电商数据常见的问题包括：

订单金额为0或负值
关键字段缺失
日期格式不一致
重复记录

处理代码示例：

python复制# 删除重复记录
df = df.drop_duplicates()

# 处理缺失值
df = df.dropna(subset=['order_id', 'product_id', 'sales_amount'])

# 处理异常值
df = df[df['sales_amount'] > 0]

3.2 特征工程

为便于分析，通常需要创建新特征：

python复制# 提取日期特征
df['order_date'] = pd.to_datetime(df['order_date'])
df['year'] = df['order_date'].dt.year
df['month'] = df['order_date'].dt.month
df['day'] = df['order_date'].dt.day
df['weekday'] = df['order_date'].dt.weekday

# 计算商品利润
df['profit'] = df['sales_amount'] - df['cost']

4. 销售趋势分析

4.1 时间维度分析

分析销售随时间变化的趋势：

python复制import matplotlib.pyplot as plt

# 按月统计销售额
monthly_sales = df.groupby(['year', 'month'])['sales_amount'].sum().reset_index()

plt.figure(figsize=(12, 6))
plt.plot(monthly_sales['month'], monthly_sales['sales_amount'])
plt.title('Monthly Sales Trend')
plt.xlabel('Month')
plt.ylabel('Sales Amount')
plt.grid(True)
plt.show()

4.2 周内销售模式

分析一周内各天的销售情况：

python复制weekday_sales = df.groupby('weekday')['sales_amount'].sum()

plt.figure(figsize=(10, 5))
weekday_sales.plot(kind='bar')
plt.title('Sales by Weekday')
plt.xlabel('Weekday (0=Monday)')
plt.ylabel('Sales Amount')
plt.xticks(rotation=0)
plt.show()

5. 商品与品类分析

5.1 畅销商品排名

找出销量最高的商品：

python复制top_products = df.groupby('product_name')['quantity'].sum().sort_values(ascending=False).head(10)

plt.figure(figsize=(12, 6))
top_products.plot(kind='barh')
plt.title('Top 10 Products by Sales Volume')
plt.xlabel('Sales Quantity')
plt.ylabel('Product Name')
plt.show()

5.2 品类贡献分析

分析各品类对总销售额的贡献：

python复制category_sales = df.groupby('category')['sales_amount'].sum().sort_values(ascending=False)

plt.figure(figsize=(10, 10))
plt.pie(category_sales, labels=category_sales.index, autopct='%1.1f%%')
plt.title('Sales Distribution by Category')
plt.show()

6. 客户行为分析

6.1 RFM客户分群

RFM模型是电商常用的客户价值分析模型：

Recency：最近购买时间
Frequency：购买频率
Monetary：消费金额

实现代码：

python复制# 计算RFM指标
now = pd.to_datetime('today')
rfm = df.groupby('customer_id').agg({
    'order_date': lambda x: (now - x.max()).days,
    'order_id': 'count',
    'sales_amount': 'sum'
}).rename(columns={
    'order_date': 'recency',
    'order_id': 'frequency',
    'sales_amount': 'monetary'
})

# RFM评分
rfm['R_Score'] = pd.qcut(rfm['recency'], 5, labels=[5,4,3,2,1])
rfm['F_Score'] = pd.qcut(rfm['frequency'], 5, labels=[1,2,3,4,5])
rfm['M_Score'] = pd.qcut(rfm['monetary'], 5, labels=[1,2,3,4,5])

rfm['RFM_Score'] = rfm['R_Score'].astype(str) + rfm['F_Score'].astype(str) + rfm['M_Score'].astype(str)

6.2 客户生命周期价值

计算客户的平均生命周期价值：

python复制# 计算平均购买周期
customer_intervals = df.groupby('customer_id')['order_date'].apply(lambda x: x.sort_values().diff().dt.days.mean())
avg_purchase_cycle = customer_intervals.mean()

# 计算平均客户生命周期
avg_customer_lifetime = 365 * 3  # 假设平均客户活跃3年

# 计算CLV
avg_order_value = df['sales_amount'].mean()
avg_purchase_frequency = df.groupby('customer_id')['order_id'].count().mean()
clv = avg_order_value * avg_purchase_frequency * (avg_customer_lifetime / avg_purchase_cycle)

7. 高级分析与可视化

7.1 销售预测模型

使用时间序列预测未来销售：

python复制from statsmodels.tsa.arima.model import ARIMA

# 准备时间序列数据
ts_data = df.set_index('order_date')['sales_amount'].resample('D').sum()

# 训练ARIMA模型
model = ARIMA(ts_data, order=(5,1,0))
model_fit = model.fit()

# 预测未来30天
forecast = model_fit.forecast(steps=30)

7.2 交互式仪表盘

使用Plotly创建交互式可视化：

python复制import plotly.express as px

# 创建销售热力图
fig = px.density_heatmap(
    df, x='weekday', y='hour', z='sales_amount',
    histfunc='avg', title='Sales Heatmap by Day and Hour'
)
fig.show()

8. 实战经验与优化建议

8.1 性能优化技巧

处理大型电商数据集时：

使用dtype参数指定列类型减少内存占用
考虑使用Dask处理超大数据集
对常用查询字段建立索引

python复制# 优化内存使用
dtypes = {
    'order_id': 'str',
    'product_id': 'str',
    'quantity': 'int32',
    'sales_amount': 'float32'
}
df = pd.read_csv('sales_data.csv', dtype=dtypes)

8.2 常见问题与解决方案

日期解析问题：
- 明确指定日期格式pd.to_datetime(df['date'], format='%Y-%m-%d')
内存不足：
- 分块读取数据pd.read_csv('data.csv', chunksize=100000)

可视化显示中文乱码：

python复制plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

在实际项目中，我发现电商数据分析最耗时的部分往往是数据清洗和特征工程，这部分工作通常占整个项目的60-70%时间。建议先花足够时间理解业务和数据，再开始编码分析