Django旅游推荐系统：协同过滤算法实践

倩Sur

1. 项目概述

作为一名长期从事Python全栈开发的工程师，我最近完成了一个基于Django框架的旅游景点智能推荐系统。这个项目不仅融合了传统的Web开发技术，还结合了机器学习中的协同过滤算法，为旅游爱好者提供个性化的景点推荐服务。

这个系统最核心的价值在于：它能根据用户的历史行为（如评分、收藏等），自动分析用户的兴趣偏好，然后从海量景点数据中筛选出最符合用户口味的旅游目的地。相比市面上常见的"热门推荐"，我们的系统能真正做到千人千面，每个用户看到的推荐结果都是独一无二的。

2. 技术架构解析

2.1 整体技术栈

系统采用经典的三层架构设计：

前端展示层：HTML + Bootstrap + ECharts
业务逻辑层：Python + Django
数据存储层：MySQL

选择这套技术栈主要基于以下几个考虑：

Django作为Python最成熟的Web框架，提供了完整的MVT模式支持，开发效率高
MySQL关系型数据库能很好地处理用户、景点、评分等结构化数据
ECharts作为百度开源的图表库，在数据可视化方面表现出色

2.2 核心算法设计

系统的灵魂在于推荐算法，我们实现了两种协同过滤算法：

2.2.1 基于用户的协同过滤(UserCF)

python复制class UserCf:
    def __init__(self, all_user):
        self.all_user = all_user
        
    def pearson(self, user1, user2):
        # 计算皮尔逊相关系数
        sum_xy = 0.0
        n = 0
        sum_x = 0.0
        sum_y = 0.0
        sumX2 = 0.0
        sumY2 = 0.0
        
        for movie1, score1 in user1.items():
            if movie1 in user2.keys():
                n += 1
                sum_xy += score1 * user2[movie1]
                sum_x += score1
                sum_y += user2[movie1]
                sumX2 += pow(score1, 2)
                sumY2 += pow(user2[movie1], 2)
        
        if n == 0:
            return 0
            
        molecule = sum_xy - (sum_x * sum_y) / n
        denominator = sqrt((sumX2 - pow(sum_x, 2)/n) * (sumY2 - pow(sum_y, 2)/n))
        
        if denominator == 0:
            return 0
            
        return molecule / denominator

这个算法的核心思想是：找到与目标用户兴趣相似的其他用户，然后将这些相似用户喜欢的、但目标用户尚未接触过的景点推荐给目标用户。

2.2.2 基于物品的协同过滤(ItemCF)

python复制def similarity(movie1_id, movie2_id):
    movie1_set = Rate.objects.filter(movie_id=movie1_id)
    movie1_sum = movie1_set.count()
    movie2_sum = Rate.objects.filter(movie_id=movie2_id).count()
    
    common = Rate.objects.filter(
        user_id__in=Subquery(movie1_set.values('user_id')),
        movie=movie2_id
    ).values('user_id').count()
    
    if movie1_sum == 0 or movie2_sum == 0:
        return 0
        
    return common / sqrt(movie1_sum * movie2_sum)

与UserCF不同，ItemCF关注的是物品之间的相似性。它会找出用户已经评过分的景点，然后推荐与这些景点相似的其他景点。

3. 系统功能实现

3.1 用户模块

用户系统采用Django自带的认证系统进行扩展，主要功能包括：

注册/登录/找回密码
个人信息管理
收藏夹管理
评论历史记录

在实现时特别注意了以下几点：

密码采用PBKDF2算法加密存储
使用Django signals实现用户行为日志记录
通过中间件实现登录状态验证

3.2 景点推荐模块

推荐模块的工作流程如下：

用户登录系统后，记录其浏览、评分行为
根据行为数据，实时更新用户兴趣模型
在首页和详情页展示个性化推荐结果

实际开发中遇到的一个关键问题是冷启动问题 - 新用户没有足够的行为数据时如何推荐？我们的解决方案是：

新用户：展示热门景点+随机推荐
有一定行为数据后：采用混合推荐（UserCF+ItemCF）

3.3 数据可视化模块

使用ECharts实现了多种数据展示形式：

词云图 - 展示热门景点关键词
双轴折线柱状图 - 对比景点数量和评分
饼图 - 展示景点地区分布
折线图 - 展示景点上架时间趋势

4. 数据库设计

系统主要包含以下几张核心表：

4.1 用户表(User)

字段	类型	说明
id	INT	主键
username	VARCHAR	用户名
password	VARCHAR	密码(加密)
email	VARCHAR	邮箱
create_time	DATETIME	创建时间

4.2 景点表(ScenicSpot)

字段	类型	说明
id	INT	主键
name	VARCHAR	景点名称
description	TEXT	景点描述
location	VARCHAR	地理位置
tags	VARCHAR	标签(逗号分隔)
views	INT	浏览量
create_time	DATETIME	创建时间