别再死记硬背公式了！用Python手把手实现UserCF，搞懂用户相似度计算的底层逻辑

盐橘姬

用Python实战UserCF：从零构建用户相似度推荐引擎

推荐系统早已渗透进我们数字生活的每个角落，但多数开发者对协同过滤的理解仍停留在调用sklearn的阶段。今天我们不谈抽象公式，直接动手用Python实现一个完整的UserCF推荐系统，你会看到那些看似复杂的数学概念如何转化为几十行清晰的代码。

1. 环境准备与数据模拟

任何推荐系统的起点都是数据。我们首先模拟一个真实的用户-物品交互场景：

python复制import numpy as np
import pandas as pd
from collections import defaultdict

# 模拟数据生成
np.random.seed(42)
users = [f'user_{i}' for i in range(1, 101)]
items = [f'item_{j}' for j in range(1, 51)]

# 生成稀疏交互矩阵
interactions = defaultdict(dict)
for u in users:
    interacted = np.random.choice(items, size=np.random.randint(5,15), replace=False)
    for i in interacted:
        interactions[u][i] = np.random.randint(1, 5)  # 1-4分表示兴趣程度

注意：实际工业级系统会使用Redis或HBase存储这类稀疏矩阵，这里用字典简化实现

将数据转为DataFrame更易处理：

python复制df = pd.DataFrame.from_dict(interactions, orient='index').fillna(0)
print(df.head()[items[:5]])  # 展示前5个物品的交互情况

2. 核心相似度计算实现

用户相似度计算是UserCF的命脉，我们实现带热门惩罚的余弦相似度：

python复制def cosine_sim_with_penalty(user1, user2, df, item_popularity):
    """
    带热门物品惩罚的余弦相似度
    :param item_popularity: 物品被交互次数统计
    """
    common_items = set(df.loc[user1].nonzero()[0]) & set(df.loc[user2].nonzero()[0])
    if not common_items:
        return 0
    
    # 计算惩罚权重
    numerator = sum(
        1 / np.log1p(item_popularity[item]) 
        for item in common_items
    )
    
    # 计算分母（用户向量模长）
    norm1 = np.sqrt(sum(
        (1 / np.log1p(item_popularity[item]))**2 
        for item in df.loc[user1].nonzero()[0]
    ))
    norm2 = np.sqrt(sum(
        (1 / np.log1p(item_popularity[item]))**2 
        for item in df.loc[user2].nonzero()[0]
    ))
    
    return numerator / (norm1 * norm2)

计算物品热度分布：

python复制item_popularity = df.astype(bool).sum(axis=0).to_dict()  # 每个物品被多少用户交互过

3. 构建用户相似度矩阵

为避免重复计算，我们预先计算并缓存相似度：

python复制from tqdm import tqdm  # 进度条显示

user_sim_matrix = pd.DataFrame(index=users, columns=users, dtype=float)

for u1 in tqdm(users):
    for u2 in users:
        if u1 == u2:
            user_sim_matrix.loc[u1, u2] = 1.0
        elif u2 in user_sim_matrix.index and u1 in user_sim_matrix[u2]:
            user_sim_matrix.loc[u1, u2] = user_sim_matrix.loc[u2, u1]
        else:
            user_sim_matrix.loc[u1, u2] = cosine_sim_with_penalty(u1, u2, df, item_popularity)

# 只保留每个用户最相似的50个邻居
top_k_users = {}
for u in users:
    top_k_users[u] = user_sim_matrix[u].nlargest(51).iloc[1:].to_dict()  # 排除自己

4. 生成推荐列表

结合相似用户和兴趣度生成推荐：

python复制def generate_recommendations(target_user, k=5):
    """
    为目标用户生成top-k推荐
    """
    candidate_scores = defaultdict(float)
    
    # 聚合相似用户的兴趣
    for sim_user, similarity in top_k_users[target_user].items():
        for item, rating in interactions[sim_user].items():
            if item not in interactions[target_user]:  # 排除已交互物品
                candidate_scores[item] += similarity * rating
    
    # 按得分排序返回
    return sorted(candidate_scores.items(), key=lambda x: x[1], reverse=True)[:k]

测试推荐效果：

python复制sample_user = np.random.choice(users)
print(f"为用户 {sample_user} 生成的推荐:")
for item, score in generate_recommendations(sample_user):
    print(f"- {item} (预测兴趣度: {score:.2f})")

5. 工程优化与生产级考量

实际落地时还需考虑以下关键点：

内存优化方案

相似度矩阵采用稀疏存储（CSR格式）
使用近似最近邻（ANN）算法替代全量计算

python复制# 使用scipy的稀疏矩阵
from scipy.sparse import csr_matrix

row_ind, col_ind, data = [], [], []
for i, u1 in enumerate(users):
    for j, u2 in enumerate(users):
        if user_sim_matrix.loc[u1, u2] > 0.1:  # 只存储显著相似度
            row_ind.append(i)
            col_ind.append(j)
            data.append(user_sim_matrix.loc[u1, u2])

sparse_sim_matrix = csr_matrix((data, (row_ind, col_ind)), shape=(len(users), len(users)))

线上服务架构

离线层：定期更新用户相似度（Hadoop/Spark）
近线层：实时记录用户最新交互（Kafka）
在线层：快速检索相似用户（Redis图数据库）

6. 效果评估与调参策略

评估推荐系统不能只看准确率，还需考虑：

指标类型	具体指标	实现代码片段示例
预测准确度	RMSE, MAE	`sklearn.metrics.mean_squared_error`
排序质量	NDCG, MAP	`lightfm.evaluation.ndcg_score`
多样性	推荐物品的覆盖率	`len(set(recommended_items)) / total_items`
新颖性	推荐物品的平均流行度	`np.mean([item_popularity[i] for i in rec_items])`

关键参数调优经验：

相似用户数K：通常50-200，过大引入噪声
热门惩罚系数：log中的+1可调整为+α（α需网格搜索）
时间衰减因子：近期行为权重更高

python复制# 带时间衰减的相似度计算示例
def time_aware_sim(u1, u2, time_decay=0.9):
    # time_decay: 每天兴趣衰减率
    common_items = find_common_items(u1, u2)
    time_weights = [time_decay**(days_ago) for days_ago in get_interaction_days()]
    return weighted_cosine(common_items, time_weights)

7. 常见陷阱与解决方案

冷启动问题

混合策略：新用户采用热门推荐+随机探索
内容特征：初期使用物品内容相似度补充

数据稀疏性

矩阵补全：使用ALS等矩阵分解方法
图嵌入：将用户-物品交互视为二部图学习

python复制# 使用LightFM处理稀疏数据示例
from lightfm import LightFM

model = LightFM(no_components=30, loss='warp')
model.fit(sparse_interactions, epochs=20)

在电商平台实际应用中，UserCF的召回结果通常会和ItemCF、Embedding等方法融合。一个典型的工作流是：先用UserCF快速筛选出几百候选物品，再用更复杂的模型进行精排。

已经到底了哦

精选内容

1 【51单片机+Proteus+ADC0804】从零搭建ADC数据采集与LCD显示系统 2 从“美亚柏科杯”赛题WP看数据安全实战：十大常见漏洞攻防演练 3 ComfyUI API 异步任务处理与图像生成实战 4 面试官最爱问的UVM通信机制：TLM端口（port/export/imp）到底怎么连才不会错？5 别再只盯着EcuM了！手把手教你用BswM配置一个ECU的智能模式切换（基于AUTOSAR 4.4）6 【医学图像处理】从零到一：构建自动化PET图像批量预处理流水线 7 把合宙9.9元ESP32C3当Arduino Nano用？这份外设驱动清单和代码库请收好 8 保姆级教程：用Mediapipe+PyQt5在树莓派上DIY一个坐姿矫正助手（附完整代码）9 别再无脑选Optimal了！深入解读Unity动画压缩三选项(Off/KeyframeReduction/Optimal)的隐藏细节与避坑指南 10 手把手教你配置Burp Suite与Xray联动，实现自动化被动漏洞扫描（附证书安装避坑指南）