Python京东手机数据分析推荐系统开发实战-代码聚汇网

Python京东手机数据分析推荐系统开发实战

迟子real

1. 项目概述与技术选型

这个基于Python的京东手机数据分析推荐系统，是我在指导计算机专业毕业设计时经常采用的一个经典案例。它完整涵盖了从数据采集、清洗存储到分析可视化的全流程，非常适合作为大数据分析方向的毕业设计选题。

为什么选择这个技术栈？

Flask框架：相比Django，Flask更轻量灵活，适合中小型数据分析项目。它的路由设计简洁明了，与Jinja2模板引擎配合良好，能快速搭建可视化界面。我在实际教学中发现，学生用Flask完成第一个Web项目的平均时间比Django少30%。
requests爬虫：虽然Scrapy功能更强大，但对于京东这种反爬机制不算特别严格的电商平台，requests+BeautifulSoup的组合完全够用。更重要的是，requests的学习曲线平缓，学生能在短时间内掌握核心用法。
pyecharts可视化：与Matplotlib相比，pyecharts生成的图表更具交互性（支持鼠标悬停查看数据），且配置方式更符合Python开发者的思维习惯。它的链式调用语法让学生能快速实现复杂图表。

提示：选择SQLite作为数据库是考虑到项目初期数据量不大（约1-2万条手机数据），且便于部署。如果数据量超过5万条，建议迁移到MySQL或PostgreSQL。

2. 数据采集与清洗实战

2.1 京东爬虫实现要点

核心代码虽然只展示了数据分析部分，但完整的爬虫实现有几个关键技巧：

python复制def crawl_jd_phones(keyword="手机", pages=10):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36...',
        'Referer': 'https://search.jd.com/'
    }
    
    for page in range(1, pages+1):
        url = f"https://search.jd.com/Search?keyword={keyword}&page={page}"
        # 使用会话保持和随机延迟
        with requests.Session() as s:
            time.sleep(random.uniform(1, 3))
            resp = s.get(url, headers=headers)
            
        soup = BeautifulSoup(resp.text, 'html.parser')
        items = soup.select('.gl-item')
        
        for item in items:
            # 提取价格、品牌、评论数等关键字段
            price = item.select_one('.p-price strong i').text
            brand = item.select('.p-name em')[0].text.split(' ')[0]
            comment = item.select_one('.p-commit a').text
            
            # 数据清洗逻辑...

避坑经验：

必须设置随机延迟（1-3秒），否则会被京东的风控系统封IP
评论数字段需要特殊处理："200+条评价"要转换为数字200
品牌名称提取时要注意去除多余空格和特殊字符

2.2 数据清洗的典型问题

从京东抓取的原始数据常见问题包括：

价格显示为"￥3,299"需要转换为3299.0
评论数中的"万"单位（如"2万+"要转为20000）
好评率字符串"98%"需转为0.98

python复制def clean_data(raw_data):
    # 价格清洗
    if '￥' in raw_data['price']:
        raw_data['price'] = float(raw_data['price'].replace('￥', '').replace(',', ''))
    
    # 评论数清洗
    if '+' in raw_data['comment_count']:
        count = raw_data['comment_count'].split('+')[0]
        if '万' in count:
            raw_data['comment_count'] = int(float(count.replace('万', '')) * 10000)
        else:
            raw_data['comment_count'] = int(count)
    
    # 好评率清洗
    if '%' in raw_data['good_rate']:
        raw_data['good_rate'] = float(raw_data['good_rate'].replace('%', '')) / 100

3. 核心数据分析模块详解

3.1 市场占有率计算逻辑

项目中的phone_sell_count()函数展示了核心计算方法：

数据聚合：按品牌分组统计评论数（实际代表销量）
单位统一：处理"万"和"+"等特殊字符
占比计算：各品牌销量除以总销量

python复制def phone_sell_count():
    conn = sqlite3.connect('jd_phone_info.db')
    cursor = conn.cursor()
    sql = 'select 品牌, 评论 from phone'
    cursor.execute(sql)
    datas = cursor.fetchall()

    pingpai_counts = {}
    for data in datas:
        pingpai = data[0]
        count = json.loads(data[1])
        count = count['CommentCountStr']
        if '+' in count:
            count = count[:-1]
            if '万' in count:
                count = int(count[:-1]) * 10000
            else:
                count = int(count)
        else:
            count = int(count)

        if pingpai not in pingpai_counts:
            pingpai_counts[pingpai] = 0
        pingpai_counts[pingpai] += count

3.2 价格分布分析技巧

价格分析采用了直方图+箱线图的双重展示：

直方图：显示各价格区间的手机数量分布
箱线图：展示中位数、四分位数和异常值

python复制@app.route('/fetch_pingpai_prices')
def fetch_pingpai_prices():
    conn = sqlite3.connect('jd_phone_info.db')
    cursor = conn.cursor()
    sql = 'select 品牌, 价格 from phone'
    cursor.execute(sql)
    datas = cursor.fetchall()

    loc_price = {}
    for data in datas:
        pingpai, price = data
        if pingpai == 'VERTU': continue  # 过滤奢侈品牌
        if pingpai not in loc_price:
            loc_price[pingpai] = []
        loc_price[pingpai].append(price)

注意：实际项目中我们发现VERTU等奢侈品牌的价格会严重扭曲图表比例，因此需要在代码中主动过滤。

4. 可视化实现关键代码

4.1 pyecharts配置要点

以市场占有率饼图为例，核心配置包括：

python复制from pyecharts import options as opts
from pyecharts.charts import Pie

def draw_market_share():
    brands, counts, _ = phone_sell_count()
    
    pie = (
        Pie()
        .add("", [list(z) for z in zip(brands[:10], counts[:10])])
        .set_global_opts(
            title_opts=opts.TitleOpts(title="手机品牌市场占有率TOP10"),
            legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%")
        )
        .set_series_opts(
            label_opts=opts.LabelOpts(
                formatter="{b}: {c} ({d}%)",
                font_size=12
            )
        )
    )
    return pie

实用技巧：

使用formatter参数自定义标签显示格式
通过pos_top和pos_left微调图例位置
只展示前10品牌避免图表过于拥挤

4.2 前后端数据交互

Flask与前端通过JSON格式交互数据：

python复制@app.route('/query_phone_zhanyoulv')
def query_phone_zhanyoulv():
    pingpai, counts, zhanyoulv = phone_sell_count()
    return jsonify({
        'keys': pingpai, 
        'counts': counts, 
        'zhanyoulv': zhanyoulv
    })

前端通过Ajax请求获取数据：

javascript复制$.get('/query_phone_zhanyoulv', function(data) {
    let chart = echarts.init(document.getElementById('pie-chart'));
    chart.setOption({
        series: [{
            type: 'pie',
            data: data.keys.map((k, i) => ({
                value: data.counts[i],
                name: k
            }))
        }]
    });
});

5. 智能推荐系统实现

5.1 推荐算法逻辑

系统采用基于规则的推荐策略，支持多条件筛选：

python复制@app.route('/recommend_phones')
def recommend_phones():
    品牌 = request.args.get('品牌')
    最低价格 = request.args.get('最低价格')
    最高价格 = request.args.get('最高价格')
    最低好评率 = request.args.get('最低好评率')
    
    sql = f"""
    SELECT * FROM phone 
    WHERE 品牌='{品牌}' 
    AND 价格 >= {最低价格} 
    AND 价格 <= {最高价格}
    """
    # ...执行查询并过滤好评率
    phones = sorted(phones, key=lambda x: x['好评率'], reverse=True)
    return jsonify({'推荐手机': phones[:20]})

5.2 推荐策略优化建议

在实际应用中，我们可以进一步优化：

加入协同过滤：根据用户历史浏览记录推荐相似商品
热度加权：将销量作为推荐排序的次要因素
价格敏感度：对不同消费水平的用户采用不同的价格区间策略

6. 项目部署与扩展

6.1 本地运行与调试

启动Flask开发服务器：

bash复制export FLASK_APP=app.py
flask run --host=0.0.0.0 --port=5000

常见问题排查：

端口冲突：使用lsof -i:5000查看占用进程
数据库连接失败：检查SQLite文件路径是否正确
图表不显示：确保pyecharts版本与示例代码兼容

6.2 生产环境部署

对于毕业设计演示，推荐使用：

Nginx + Gunicorn：比开发服务器更稳定
Docker容器化：方便在不同环境迁移
定时爬虫任务：使用APScheduler定期更新数据

dockerfile复制FROM python:3.8
WORKDIR /app
COPY requirements.txt .
RUN pip install -r requirements.txt
COPY . .
CMD ["gunicorn", "-b", "0.0.0.0:5000", "app:app"]

7. 毕业设计优化方向

根据我带毕业设计的经验，学生可以从以下方面提升项目质量：

增加预测算法：使用ARIMA或LSTM预测市场趋势
情感分析：对评论内容进行情感倾向分析
竞品对比：加入天猫、苏宁等平台数据横向比较
移动端适配：使用Bootstrap实现响应式布局

在实现这些扩展功能时，我通常会建议学生先完成核心功能，再逐步添加高级特性，确保项目按时完成的同时体现技术深度。