Python实现基于物品的协同过滤推荐系统实战

Dyingalive

1. 项目概述

推荐系统已经成为现代互联网服务的标配功能，从电商平台到内容社区，几乎无处不在。基于物品的协同过滤（Item-Based CF）作为推荐系统领域的经典算法，以其直观的原理和稳定的效果，在实际业务中有着广泛应用。这次我将带大家从零开始，完整实现一个基于物品的协同过滤推荐系统。

不同于学院派的纯理论讲解，我会以一个实际业务场景为背景，分享我在多个推荐系统项目中积累的实战经验。我们将使用Python作为实现语言，重点解决三个核心问题：如何计算物品相似度？如何处理稀疏矩阵？如何平衡推荐结果的多样性和准确性？

2. 核心原理与设计思路

2.1 协同过滤的基本概念

协同过滤的核心思想是"物以类聚，人以群分"。基于物品的协同过滤主要关注物品之间的相似性，通过用户历史行为数据，找出相似的物品进行推荐。举个例子，如果用户A购买了物品1和物品2，而用户B购买了物品1和物品3，那么系统可能会认为物品2和物品3存在某种相似性，从而向购买物品3的用户推荐物品2。

2.2 相似度计算方法选择

在实现Item-Based CF时，相似度计算是关键环节。常见的相似度计算方法包括：

余弦相似度（Cosine Similarity）：计算两个向量夹角的余弦值
皮尔逊相关系数（Pearson Correlation）：衡量两个变量的线性相关性
改进的余弦相似度（Adjusted Cosine）：考虑用户评分偏置的影响

经过实际项目验证，在用户评分数据上，皮尔逊相关系数通常表现更好；而在隐式反馈数据（如点击、购买）上，余弦相似度更为适用。本次实现我们将重点使用余弦相似度，因为它的计算效率高，且对稀疏数据友好。

2.3 数据稀疏性问题处理

真实场景中的用户-物品矩阵往往非常稀疏（填充率通常低于1%），这会导致相似度计算不准确。常见的解决方案包括：

降维处理（如SVD分解）
基于图的随机游走方法
矩阵填充技术

考虑到实现复杂度和效果平衡，我们会采用简单的基线填充方法：用物品的平均评分填充缺失值。虽然这不是最优方案，但在中小规模数据集上已经能显著改善效果。

3. 系统实现与核心代码

3.1 数据准备与预处理

首先我们需要准备用户-物品交互数据。以MovieLens数据集为例：

python复制import pandas as pd
from scipy.sparse import csr_matrix

# 加载评分数据
ratings = pd.read_csv('ratings.csv')  
movies = pd.read_csv('movies.csv')

# 创建用户-物品评分矩阵
user_item_matrix = ratings.pivot(index='userId', columns='movieId', values='rating')

# 处理缺失值 - 用物品平均分填充
item_means = user_item_matrix.mean(axis=0)
user_item_matrix = user_item_matrix.fillna(item_means)

# 转换为稀疏矩阵节省内存
sparse_matrix = csr_matrix(user_item_matrix.values)

3.2 相似度矩阵计算

接下来计算物品之间的相似度矩阵：

python复制from sklearn.metrics.pairwise import cosine_similarity

# 计算物品相似度矩阵
item_sim_matrix = cosine_similarity(sparse_matrix.T)

# 将相似度矩阵转换为DataFrame便于查询
item_sim_df = pd.DataFrame(item_sim_matrix, 
                          index=user_item_matrix.columns,
                          columns=user_item_matrix.columns)

这里有几个优化点需要注意：

对稀疏矩阵使用.T进行转置，使物品成为行向量
相似度计算前不需要标准化，因为余弦相似度本身已经考虑了向量长度
相似度矩阵对角线元素（物品与自身的相似度）应该设为0，避免自推荐

3.3 生成推荐结果

基于相似度矩阵生成推荐：

python复制def recommend_items(user_id, user_item_matrix, item_sim_df, top_n=10):
    # 获取用户历史交互物品
    user_ratings = user_item_matrix.loc[user_id]
    
    # 找出用户未评分的物品
    unrated_items = user_ratings[user_ratings.isna()].index
    
    # 计算预测评分
    item_scores = {}
    for item in unrated_items:
        # 获取与当前物品最相似的k个物品
        similar_items = item_sim_df[item].sort_values(ascending=False)[1:11]
        
        # 计算加权平均评分
        weighted_sum = 0
        sim_sum = 0
        for similar_item, sim_score in similar_items.items():
            if similar_item in user_ratings and not pd.isna(user_ratings[similar_item]):
                weighted_sum += sim_score * user_ratings[similar_item]
                sim_sum += sim_score
        
        if sim_sum > 0:
            item_scores[item] = weighted_sum / sim_sum
    
    # 返回评分最高的n个物品
    return sorted(item_scores.items(), key=lambda x: x[1], reverse=True)[:top_n]

4. 性能优化与工程实践

4.1 相似度矩阵计算优化

当物品数量很大时（如超过1万），相似度矩阵的计算和存储会成为瓶颈。我们可以采用以下优化策略：

只存储每个物品最相似的Top-K物品，而不是完整的相似度矩阵
使用近似最近邻算法（如Annoy或Faiss）加速相似度计算
对相似度矩阵进行分块计算和存储

优化后的相似度计算代码：

python复制from sklearn.neighbors import NearestNeighbors

# 使用KNN计算近似相似度
knn = NearestNeighbors(n_neighbors=20, metric='cosine', algorithm='brute')
knn.fit(sparse_matrix.T)

# 获取每个物品的最近邻
distances, indices = knn.kneighbors(sparse_matrix.T)

4.2 实时推荐实现

在实际生产环境中，推荐请求往往是实时的。我们可以预计算相似度矩阵，然后在服务内存中维护：

python复制import pickle
from flask import Flask, request

app = Flask(__name__)

# 加载预计算的模型
with open('item_sim_model.pkl', 'rb') as f:
    model = pickle.load(f)

@app.route('/recommend', methods=['GET'])
def recommend():
    user_id = int(request.args.get('user_id'))
    top_n = int(request.args.get('top_n', 10))
    
    # 获取推荐结果
    recommendations = recommend_items(user_id, model['user_item_matrix'], 
                                     model['item_sim_df'], top_n)
    
    return {'recommendations': recommendations}

5. 评估与调优

5.1 离线评估指标

推荐系统的常用评估指标包括：

准确率指标：RMSE、MAE（适用于评分预测）
排序指标：Precision@K、Recall@K、NDCG@K（适用于Top-N推荐）
多样性指标：推荐列表的覆盖率和新颖性

以NDCG为例的实现代码：

python复制from sklearn.metrics import ndcg_score

def evaluate_model(test_ratings, recommendations):
    # 准备真实评分和预测评分
    true_relevance = []
    pred_relevance = []
    
    for user_id in test_ratings.index:
        true_ratings = test_ratings.loc[user_id]
        pred_items = [item for item, _ in recommendations[user_id]]
        
        # 构建评分向量
        true_vec = []
        pred_vec = []
        for item in pred_items:
            true_vec.append(true_ratings.get(item, 0))
            pred_vec.append(1)  # 假设所有推荐物品都是相关的
        
        true_relevance.append(true_vec)
        pred_relevance.append(pred_vec)
    
    return ndcg_score(true_relevance, pred_relevance)