Python实战：豆瓣电影数据分析全流程解析-代码聚汇网

Python实战：豆瓣电影数据分析全流程解析

幸运小姐

1. 项目背景与核心价值

电影数据分析一直是互联网数据挖掘的经典应用场景。作为国内最具影响力的影视评分平台之一，豆瓣积累了海量真实用户的观影行为和评价数据。这些数据背后隐藏着观众偏好、市场趋势和内容创作规律等宝贵信息。

去年我在为一个影视行业客户做市场调研时，发现他们需要更直观地理解不同类型电影的市场表现和观众反馈。传统的人工统计方式效率低下，于是我用Python开发了一套完整的豆瓣电影数据分析方案。这个项目从数据采集到可视化呈现全流程打通，最终帮助客户快速识别出喜剧片在25-35岁观众群体中的评分明显高于其他类型，为他们的内容制作方向提供了数据支撑。

2. 技术架构设计

2.1 整体技术栈选型

整套系统采用典型的ETL+分析+展示三层架构：

数据采集层：Requests+BeautifulSoup
数据处理层：Pandas+Numpy
可视化层：Matplotlib+Pyecharts

选择这个技术组合主要基于三个考量：

Requests比Scrapy更轻量，适合中小规模数据抓取
Pandas的DataFrame结构非常适合处理带时间维度的评分数据
Pyecharts的交互特性可以呈现更丰富的维度信息

2.2 数据采集模块实现

核心爬虫代码需要考虑豆瓣的反爬机制：

python复制def get_movie_data(movie_id):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)',
        'Accept-Language': 'zh-CN,zh;q=0.9'
    }
    url = f'https://movie.douban.com/subject/{movie_id}/'
    
    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 解析关键字段
        title = soup.find('span', property='v:itemreviewed').text
        rating = soup.find('strong', class_='ll rating_num').text
        ...
        
        return {
            'title': title,
            'rating': float(rating),
            # 其他字段...
        }
    except Exception as e:
        print(f"Error fetching {movie_id}: {str(e)}")
        return None

重要提示：实际开发中需要控制请求频率，建议添加3-5秒的随机延迟，并配合代理IP池使用

3. 数据清洗与特征工程

3.1 异常数据处理

原始数据常见问题包括：

评分缺失值（标记为"暂无评分"）
极端异常值（如0分或10分占比异常）
文本评价中的无意义字符

清洗策略示例：

python复制def clean_data(df):
    # 处理缺失值
    df = df[df['rating'].notna()]
    
    # 过滤异常评分
    q_low = df['rating'].quantile(0.01)
    q_high = df['rating'].quantile(0.99)
    df = df[(df['rating'] > q_low) & (df['rating'] < q_high)]
    
    # 标准化文本字段
    df['comment'] = df['comment'].apply(lambda x: re.sub(r'[^\w\s]', '', x))
    
    return df

3.2 特征构建

基于原始数据可以衍生出多个分析维度：

时间维度：按年份/月份分析评分趋势
类型维度：统计不同类型电影的平均评分
演员/导演维度：建立创作者评分矩阵

python复制# 创建类型特征示例
def extract_genres(df):
    genre_cols = ['剧情', '喜剧', '动作', '爱情']  # 常见电影类型
    for genre in genre_cols:
        df[genre] = df['genres'].apply(lambda x: 1 if genre in x else 0)
    return df

4. 可视化分析实现

4.1 评分分布分析

使用Matplotlib绘制评分直方图：

python复制plt.figure(figsize=(10,6))
plt.hist(df['rating'], bins=20, color='steelblue', edgecolor='black')
plt.title('豆瓣电影评分分布', fontsize=15)
plt.xlabel('评分', fontsize=12)
plt.ylabel('电影数量', fontsize=12)
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()

4.2 类型与评分关系

Pyecharts实现交互式箱线图：

python复制from pyecharts.charts import Boxplot

box = Boxplot()
box.add_xaxis(['剧情', '喜剧', '动作', '科幻'])
box.add_yaxis('评分', [
    df[df['剧情']==1]['rating'].tolist(),
    df[df['喜剧']==1]['rating'].tolist(),
    # 其他类型...
])
box.set_global_opts(title_opts=opts.TitleOpts(title="不同类型电影评分分布"))
box.render("genre_rating.html")

5. 高级分析技巧

5.1 评论情感分析

使用SnowNLP进行简单的情感值计算：

python复制from snownlp import SnowNLP

def get_sentiment(text):
    return SnowNLP(text).sentiments

df['sentiment'] = df['comment'].apply(get_sentiment)

5.2 导演作品分析

构建导演作品评分矩阵：

python复制director_stats = df.groupby('director').agg({
    'rating': ['mean', 'count'],
    'sentiment': 'mean'
}).sort_values(('rating', 'mean'), ascending=False)

# 筛选至少有3部作品的导演
director_stats = director_stats[director_stats[('rating', 'count')] >= 3]

6. 实战经验与优化建议

数据采集优化：

使用IP轮询策略避免封禁
实现断点续爬功能
将User-Agent池化处理

分析性能提升：

对大型数据集使用Dask替代Pandas
将情感分析改用多进程处理
使用Cython加速特征计算

可视化交互优化：

在Pyecharts中增加数据刷选功能
实现图表联动效果
添加时间轴动画展示趋势变化

一个实际项目中，通过优化特征计算逻辑，我们将5000部电影的分析时间从原来的12分钟缩短到了2分钟。关键是把原本的逐行apply操作改为了向量化计算：

python复制# 优化前（慢）
df['rating_level'] = df['rating'].apply(lambda x: '高' if x >8 else '中' if x>6 else '低')

# 优化后（快）
conditions = [
    df['rating'] > 8,
    df['rating'] > 6
]
choices = ['高', '中']
df['rating_level'] = np.select(conditions, choices, default='低')

这个项目最让我意外的一个发现是：当把电影按上映月份分组时，发现12月上映的电影平均评分明显高于其他月份，这可能与贺岁档电影制作更精良有关。这种洞察只有通过系统的数据分析才能可靠地发现，而不是靠主观感受。