基于物品的协同过滤算法原理与Python实现

露克

1. 推荐系统与协同过滤基础

作为一名长期从事推荐系统开发的工程师，我见证了协同过滤算法从学术论文到工业级应用的完整演进过程。推荐系统本质上是一个信息过滤系统，它通过分析用户行为数据来预测用户可能感兴趣的物品。在实际应用中，推荐系统的效果直接影响着平台的核心指标——无论是电商的转化率、视频网站的观看时长，还是新闻应用的留存率。

协同过滤算法之所以能成为推荐系统领域的常青树，关键在于它巧妙地利用了"群体智慧"这一概念。想象一下，当你走进一家书店，店员会根据"和你品味相似的顾客都喜欢哪些书"来为你推荐，这就是协同过滤的核心思想。与基于内容的推荐不同，协同过滤完全依赖于用户-物品的交互数据，不需要任何关于物品本身的特征信息。

在工业实践中，基于物品的协同过滤(Item-Based CF)相比基于用户的协同过滤(User-Based CF)具有明显的优势。最显著的一点是物品的相似性通常比用户的相似性更稳定——一本书的内容特征不会因为某个用户给它打了低分就改变，但一个用户的兴趣可能会随时间快速变化。这也是为什么Amazon早在2003年就在其推荐系统中采用了Item-Based CF，并取得了显著效果提升。

2. 基于物品的协同过滤原理详解

2.1 核心算法思想

基于物品的协同过滤的核心假设是：用户会喜欢与他们过去喜欢的物品相似的物品。举个例子，如果你喜欢《指环王》这本书，系统会推荐与《指环王》相似的其他奇幻小说，比如《冰与火之歌》。

算法实现主要分为三个步骤：

计算物品之间的相似度
根据用户历史行为和物品相似度生成推荐列表
对推荐结果进行排序和过滤

其中最关键的是第一步——物品相似度计算。这里我们需要定义一个数学上的相似度度量标准，常用的有余弦相似度、皮尔逊相关系数和调整余弦相似度。

2.2 相似度计算方法对比

在实际项目中，我测试过多种相似度计算方法，以下是它们的优缺点比较：

相似度度量	公式	优点	缺点	适用场景
余弦相似度	cos(θ) = (A·B)/(		A
皮尔逊相关系数	cov(X,Y)/(σ_X·σ_Y)	考虑用户平均评分的影响	计算量较大	用户评分存在明显偏差时
调整余弦相似度	Σ(u∈U)(r_{u,i}-r̄_u)(r_{u,j}-r̄_u)/√(Σ(r_{u,i}-r̄_u)²Σ(r_{u,j}-r̄_u)²)	消除了用户评分尺度差异	计算复杂度最高	用户评分习惯差异大时

提示：在真实业务场景中，我通常先用小规模数据测试不同相似度的效果，再选择最适合当前数据特性的方法。调整余弦相似度虽然计算复杂，但在Netflix Prize比赛中被证明效果最好。

2.3 用户评分预测

计算出物品相似度后，预测用户u对物品i的评分可以通过以下公式计算：

pred(u,i) = Σ(j∈N(i)) sim(i,j)·r(u,j) / Σ(j∈N(i)) |sim(i,j)|

其中N(i)是与物品i最相似的k个物品的集合，r(u,j)是用户u对物品j的评分，sim(i,j)是物品i和j的相似度。

3. 完整Python实现

3.1 数据准备与预处理

我们使用MovieLens 100K数据集作为示例，这个数据集包含943名用户对1682部电影的100,000条评分(1-5分)。

python复制import pandas as pd
from scipy.sparse import csr_matrix
from sklearn.metrics.pairwise import cosine_similarity

# 加载数据
ratings = pd.read_csv('ml-100k/u.data', sep='\t', 
                      names=['user_id','item_id','rating','timestamp'])
movies = pd.read_csv('ml-100k/u.item', sep='|', encoding='latin-1',
                    names=['item_id','title']+[f'f{i}' for i in range(22)])

# 创建用户-物品评分矩阵
user_item_matrix = ratings.pivot_table(index='user_id', 
                                      columns='item_id', 
                                      values='rating').fillna(0)

3.2 物品相似度计算

这里我们实现调整余弦相似度，它比普通余弦相似度更适合真实场景：

python复制def adjusted_cosine_sim(matrix):
    # 计算每个用户的平均评分
    user_means = matrix.mean(axis=1)
    
    # 调整评分矩阵（减去用户平均分）
    adjusted_matrix = matrix.sub(user_means, axis=0)
    adjusted_matrix = adjusted_matrix.fillna(0)
    
    # 计算调整余弦相似度
    sim = cosine_similarity(adjusted_matrix.T)
    return sim

item_sim = adjusted_cosine_sim(user_item_matrix)
item_sim_df = pd.DataFrame(item_sim, 
                          index=user_item_matrix.columns,
                          columns=user_item_matrix.columns)

3.3 生成推荐

基于物品相似度，我们可以预测用户对未评分物品的评分：

python复制def predict_ratings(user_id, item_sim_df, user_item_matrix, k=20):
    # 获取用户已评分的物品
    rated_items = user_item_matrix.loc[user_id][user_item_matrix.loc[user_id] > 0].index
    
    # 初始化预测评分字典
    pred_scores = {}
    
    # 对每个未评分的物品计算预测评分
    for item in user_item_matrix.columns:
        if user_item_matrix.loc[user_id, item] == 0:  # 只预测未评分的
            # 找到与当前物品最相似的k个已评分物品
            sim_items = item_sim_df[item].sort_values(ascending=False)
            sim_items = sim_items[sim_items.index.isin(rated_items)]
            sim_items = sim_items[:k]
            
            # 计算加权平均评分
            numerator = (user_item_matrix.loc[user_id, sim_items.index] * sim_items).sum()
            denominator = sim_items.abs().sum()
            
            pred_scores[item] = numerator / denominator if denominator != 0 else 0
    
    return pd.Series(pred_scores).sort_values(ascending=False)

# 为用户1生成电影推荐
user_id = 1
recommendations = predict_ratings(user_id, item_sim_df, user_item_matrix)
top10_recommendations = recommendations.head(10)

3.4 推荐结果展示

将推荐结果与电影标题关联展示：

python复制# 获取推荐电影的标题
recommended_movies = movies[movies['item_id'].isin(top10_recommendations.index)]
recommended_movies = recommended_movies.set_index('item_id').loc[top10_recommendations.index]
recommended_movies['pred_rating'] = top10_recommendations.values

print(f"为用户{user_id}推荐的电影：")
print(recommended_movies[['title', 'pred_rating']])