Python爬虫实战：豆瓣电影书籍数据抓取与分析-代码聚汇网

Python爬虫实战：豆瓣电影书籍数据抓取与分析

烂人不配爱

1. 项目背景与核心价值

最近在整理个人观影和阅读记录时，发现豆瓣的数据展示方式虽然丰富，但缺乏个性化的统计分析功能。作为一个Python开发者，自然想到用爬虫技术把这些数据抓取下来，然后进行二次加工分析。这个项目不仅能练习requests/BeautifulSoup等爬虫基础库的使用，还能结合pandas/matplotlib实现数据可视化，最终产出有价值的个人观影阅读报告。

从技术层面来看，豆瓣作为国内知名的文化社区平台，其反爬机制相对完善但又不会过于严苛，非常适合作为爬虫练手项目。通过这个实战，我们可以掌握以下核心技能：

如何分析网页结构并定位关键数据
如何处理登录验证和反爬机制
如何设计稳健的数据存储方案
如何进行基础的数据清洗与分析

2. 技术方案设计与工具选型

2.1 爬虫框架选择

对于这种中等规模的爬取需求，我选择了最经典的requests+BeautifulSoup组合而非Scrapy框架，主要基于以下考虑：

项目规模不大，不需要分布式爬取能力
豆瓣的页面结构相对规整，用BS4解析足够
更轻量级，方便快速开发和调试

python复制import requests
from bs4 import BeautifulSoup
import pandas as pd

2.2 反爬应对策略

豆瓣有一些基础的反爬措施需要特别注意：

请求频率控制：添加随机间隔(0.5-2秒)
Headers设置：需要模拟浏览器行为
登录验证：部分数据需要登录后才能获取

python复制headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)',
    'Accept-Language': 'zh-CN,zh;q=0.9'
}

3. 核心爬取流程实现

3.1 电影数据抓取实现

以抓取TOP250电影为例，关键步骤包括：

分析URL规律：发现分页是通过start参数控制
定位数据节点：使用Chrome开发者工具检查元素
异常处理：网络请求重试机制

python复制def get_movie_detail(url):
    try:
        resp = requests.get(url, headers=headers)
        soup = BeautifulSoup(resp.text, 'html.parser')
        
        title = soup.find('span', property='v:itemreviewed').text
        rating = soup.find('strong', class_='ll rating_num').text
        # 其他字段提取...
        
        return {
            'title': title,
            'rating': float(rating),
            # 其他字段...
        }
    except Exception as e:
        print(f"Error fetching {url}: {str(e)}")
        return None

3.2 书籍数据抓取要点

书籍数据的抓取有几个特殊点需要注意：

书籍页面使用不同的HTML结构
评分信息位于不同位置
需要处理系列书籍的特殊情况

重要提示：豆瓣对未登录用户的访问有频次限制，建议使用cookie模拟登录状态，但不要设置过短的请求间隔。

4. 数据存储方案

4.1 存储格式选择

根据数据量和使用场景，我选择了两种存储方式：

CSV：适合原始数据存储和简单分析
SQLite：便于复杂查询和长期维护

python复制# 保存到CSV示例
df.to_csv('douban_movies.csv', index=False, encoding='utf_8_sig')

# SQLite存储
import sqlite3
conn = sqlite3.connect('douban.db')
df.to_sql('movies', conn, if_exists='replace')

4.2 数据去重策略

由于可能多次运行爬虫，需要实现：

基于URL的主键去重
增量更新机制
数据变更检测

5. 数据分析与可视化

5.1 基础统计分析

使用pandas可以快速实现：

评分分布分析
类型统计
时间趋势分析

python复制# 评分分布分析示例
rating_bins = [0, 6, 7, 8, 9, 10]
df['rating_level'] = pd.cut(df['rating'], bins=rating_bins)
rating_dist = df['rating_level'].value_counts().sort_index()

5.2 高级可视化

通过matplotlib/seaborn可以制作：

评分分布直方图
类型占比饼图
时间趋势折线图

python复制import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10,6))
sns.histplot(data=df, x='rating', bins=20, kde=True)
plt.title('豆瓣电影评分分布')
plt.savefig('rating_dist.png')

6. 实战经验与避坑指南

6.1 常见问题解决

403禁止访问问题：
- 检查User-Agent设置
- 添加Referer头
- 尝试使用代理IP
数据提取不完整：
- 使用更稳健的选择器
- 添加try-except块
- 验证CSS选择器是否随页面更新

6.2 性能优化技巧

使用Session保持连接
实现并行请求（控制并发数）
缓存已抓取页面

python复制from requests.sessions import Session

def get_session():
    session = Session()
    session.headers.update(headers)
    return session

6.3 伦理与法律注意事项

严格遵守robots.txt规定
控制请求频率（建议≥1秒/次）
仅用于个人学习用途
不抓取用户隐私数据

7. 项目扩展方向

这个基础项目还可以进一步扩展：

构建个人观影推荐系统
开发Chrome插件实时显示评分
结合情感分析评论数据
搭建自动化监控看板

python复制# 简单的推荐逻辑示例
def recommend_movies(df, min_rating=8.5, genre=None):
    if genre:
        return df[(df['rating'] >= min_rating) & (df['genres'].str.contains(genre))]
    return df[df['rating'] >= min_rating]

在实际开发中，我发现豆瓣的页面结构会不定期调整，因此爬虫代码需要保持更新。建议定期运行测试用例验证核心选择器是否仍然有效。另外，将配置参数（如URL模板、选择器）提取到配置文件中，可以大大提高代码的维护性。