Python+Django实现协同过滤音乐推荐系统-代码聚汇网

Python+Django实现协同过滤音乐推荐系统

淘房记

1. 项目概述：基于协同过滤的音乐推荐系统

这个音乐推荐系统是我在指导计算机专业学生毕业设计时开发的一个典型案例，采用Python+Django技术栈实现。系统核心在于利用协同过滤算法分析用户行为数据，为每位用户生成个性化音乐推荐列表。相比市面上常见的基于内容的推荐方式，这种算法能够发现用户潜在的音乐偏好，即使面对冷启动问题也有较好的表现。

系统分为前后端两大模块：前端采用经典的三件套（HTML+CSS+JavaScript）构建用户界面，集成了Echarts实现数据可视化；后端基于Django框架开发，使用MySQL/PostgreSQL存储用户行为数据和音乐元数据。特别值得一提的是，我们在实现推荐算法时没有直接调用现成的推荐库，而是从零实现了基于用户的协同过滤算法，这对学生理解推荐系统原理非常有帮助。

提示：选择Django框架而非Flask的主要考虑是其自带的管理后台功能，可以快速构建后台数据管理模块，这对毕业设计演示非常实用。

2. 系统架构设计

2.1 技术栈选型分析

后端技术栈选择Python+Django组合主要基于以下考量：

Django的ORM可以简化数据库操作，适合不熟悉SQL的学生
自带Admin后台，节省开发时间
完善的文档和社区支持
与Python生态无缝集成，便于实现推荐算法

数据库方面同时支持MySQL和PostgreSQL，这是考虑到不同学校的实验环境差异。实际部署时，PostgreSQL在JSON支持和性能方面表现更优。

前端技术栈采用：

Bootstrap 5响应式框架（确保移动端兼容）
Echarts 5（数据可视化）
jQuery（简化DOM操作）
HTML5 Audio API（音乐播放控制）

2.2 数据模型设计

核心数据表及其关系如下：

表名	主要字段	作用
Music	id, name, artist, category, view_count	存储音乐基本信息
User	id, username, password, email	用户账户信息
Mark	user_id, music_id, score	用户评分记录
Like	user_id, music_id	用户收藏记录
Comment	user_id, music_id, content	用户评论数据
Category	id, name	音乐分类标签

这种设计遵循了数据库第三范式，同时通过适当的冗余字段（如view_count）提升查询性能。音乐文件的存储采用Django的FileField，实际部署时建议使用云存储服务。

3. 核心功能实现

3.1 协同过滤算法实现

系统采用基于用户的协同过滤（UserCF）算法，核心代码如下：

python复制def calculate_cosine_similarity(user_ratings1, user_ratings2):
    # 将用户评分转换为{音乐ID:评分}字典
    item_ratings1 = {rating.item_id: rating.score for rating in user_ratings1}
    item_ratings2 = {rating.item_id: rating.score for rating in user_ratings2}
    
    # 找出共同评价的音乐
    common_items = set(item_ratings1.keys()) & set(item_ratings2.keys())
    if not common_items:
        return 0.0
    
    # 转换为NumPy数组计算余弦相似度
    user1_scores = np.array([item_ratings1[item] for item in common_items])
    user2_scores = np.array([item_ratings2[item] for item in common_items])
    
    return np.dot(user1_scores, user2_scores) / (
           np.linalg.norm(user1_scores) * np.linalg.norm(user2_scores))

算法实现的关键点：

相似度计算采用余弦相似度，避免用户评分尺度差异的影响
只考虑有共同评分项目的用户对
使用NumPy向量化运算提升计算效率

3.2 推荐生成流程

完整的推荐生成过程分为四个步骤：

数据准备阶段：
- 加载目标用户的评分记录
- 排除已评分的音乐项
邻居用户筛选：
- 计算与所有其他用户的相似度
- 保留相似度大于阈值（本系统设为0）的用户
评分预测：
- 对邻居用户评过但目标用户未评的音乐
- 使用加权平均法预测评分：$P_{u,i} = \frac{\sum_{v∈N(u)} sim(u,v)×r_{v,i}}{\sum_{v∈N(u)}|sim(u,v)|}$
结果生成：
- 按预测评分降序排列
- 取Top-N作为推荐结果

注意：实际部署时应添加日志记录推荐过程的中间结果，方便算法调优和效果评估。

4. 关键业务逻辑实现

4.1 用户评分处理

评分接口设计考虑了以下边界情况：

同一用户对同一音乐多次评分（取最后一次）
非登录用户尝试评分
超出1-5分范围的异常评分

核心代码如下：

python复制def input_score(request):
    user_id = request.session.get('user_id')
    if not user_id:
        return JsonResponse({'code': 400, 'message': '请先登录'})
    
    try:
        score = int(request.POST.get('score'))
        if not 1 <= score <= 5:
            raise ValueError
    except (TypeError, ValueError):
        return JsonResponse({'code': 400, 'message': '无效的评分值'})
    
    music_id = request.POST.get('music_id')
    # 更新或创建评分记录
    MarkModel.objects.update_or_create(
        user_id=user_id,
        item_id=music_id,
        defaults={'score': score}
    )
    return JsonResponse({'code': 200})

4.2 音乐播放统计

采用Django的F()表达式实现原子化的播放量统计，避免并发问题：

python复制def music_detail(request, music_id):
    music = MusicModel.objects.get(id=music_id)
    # 使用F()表达式保证原子操作
    MusicModel.objects.filter(id=music_id).update(
        view_number=F('view_number') + 1
    )
    # ...其他逻辑

4.3 数据可视化实现

使用Echarts实现音乐播放量排行榜可视化：

javascript复制// 前端AJAX获取数据
$.ajax({
    url: '/top_view/',
    type: 'POST',
    success: function(response) {
        // 初始化Echarts实例
        var chart = echarts.init(document.getElementById('chart'));
        var option = {
            xAxis: {
                type: 'category',
                data: response.name_list
            },
            yAxis: {type: 'value'},
            series: [{
                data: response.count_list,
                type: 'bar',
                showBackground: true,
                itemStyle: {
                    color: new echarts.graphic.LinearGradient(0, 0, 0, 1, [
                        { offset: 0, color: '#83bff6' },
                        { offset: 0.5, color: '#188df0' },
                        { offset: 1, color: '#188df0' }
                    ])
                }
            }]
        };
        chart.setOption(option);
    }
});

5. 系统优化与实践经验

5.1 性能优化方案

推荐结果缓存：

python复制from django.core.cache import cache

def get_recommendations(user_id):
    cache_key = f'recs_{user_id}'
    recs = cache.get(cache_key)
    if recs is None:
        recs = generate_recommendations(user_id)  # 耗时操作
        cache.set(cache_key, recs, timeout=3600)  # 缓存1小时
    return recs

数据库索引优化：
- 在Mark表的user_id和item_id上创建联合索引
- 为Like表的查询字段添加索引

批量查询替代循环查询：

python复制# 不好的做法
for user in users:
    ratings = MarkModel.objects.filter(user=user)

# 优化做法
from django.db.models import Prefetch
users = User.objects.prefetch_related(
    Prefetch('marks', queryset=MarkModel.objects.all())
)

5.2 常见问题排查

推荐结果重复：
- 检查相似度计算是否包含自相关用户
- 验证评分预测阶段是否排除了已评项目
新用户冷启动问题：
- 实现基于热门音乐的兜底推荐
- 添加音乐分类浏览功能
Echarts图表不显示：
- 检查DOM元素宽度是否有效
- 确认数据格式符合Echarts要求
- 在AJAX回调中调用resize()方法

5.3 部署注意事项

生产环境建议：
- 使用Gunicorn+Nginx部署
- 配置PostgreSQL连接池
- 启用Django的缓存框架

安全配置：

python复制# settings.py
SECURE_HSTS_SECONDS = 31536000
SECURE_SSL_REDIRECT = True
SESSION_COOKIE_SECURE = True
CSRF_COOKIE_SECURE = True

性能监控：
- 添加Django-debug-toolbar
- 配置Sentry错误监控
- 使用Prometheus收集指标

这个音乐推荐系统项目完整实现了从数据收集、算法应用到前后端展示的全流程，特别适合作为计算机相关专业的毕业设计选题。在实际教学中发现，学生通过实现这个系统可以掌握Web开发全栈技能，同时深入理解推荐算法原理。系统还有很大的扩展空间，比如引入基于内容的推荐形成混合推荐策略，或者使用Redis优化实时推荐性能等。