Python爬虫实战：豆瓣Top250电影数据分析-代码聚汇网

Python爬虫实战：豆瓣Top250电影数据分析

ki-pi

1. 项目背景与价值解析

爬取豆瓣电影Top250榜单并分析评分数据，是数据分析领域经典的实战项目。这个榜单汇集了豆瓣平台评分最高的250部电影，反映了大众观影偏好和专业评价标准的平衡。通过爬取和分析这些数据，我们可以：

了解不同类型电影的评分分布规律
发现高评分电影的共性特征
掌握网络爬虫与数据分析的完整工作流程
为电影推荐系统提供数据支持

这个项目特别适合想要学习Python爬虫和数据分析的开发者。相比其他爬虫项目，豆瓣Top250结构清晰但又有足够的反爬机制，是练习爬虫技术的理想选择。

2. 技术方案设计

2.1 整体架构设计

项目采用经典的ETL(Extract-Transform-Load)流程：

数据采集层：使用Requests库获取网页，BeautifulSoup解析HTML
数据处理层：Pandas进行数据清洗和转换
数据存储层：CSV文件持久化存储
数据分析层：Matplotlib/Seaborn可视化分析

2.2 技术选型考量

选择Requests+BeautifulSoup组合而非Scrapy框架，主要基于以下考虑：

项目规模较小，不需要分布式爬虫的复杂度
学习曲线更平缓，适合初学者
更灵活应对豆瓣的反爬策略
便于调试和快速迭代

对于数据分析部分，Pandas+Matplotlib组合足以满足基础统计分析需求，且与Python生态无缝集成。

3. 爬虫实现细节

3.1 页面请求与反爬应对

豆瓣有基本的反爬机制，需要合理设置请求头：

python复制headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Referer': 'https://movie.douban.com/top250'
}

def get_page(url):
    try:
        response = requests.get(url, headers=headers, timeout=10)
        if response.status_code == 200:
            return response.text
    except requests.RequestException as e:
        print(f'请求失败: {e}')
        return None

关键技巧：

使用真实浏览器的User-Agent
添加Referer字段模拟正常访问
设置合理的超时时间
实现异常处理和重试机制

3.2 数据解析实现

每部电影的主要信息位于<div class="item">标签内，使用BeautifulSoup定位：

python复制def parse_page(html):
    soup = BeautifulSoup(html, 'lxml')
    items = soup.find_all('div', class_='item')
    
    for item in items:
        # 电影标题
        title = item.find('span', class_='title').get_text()
        
        # 评分
        rating = float(item.find('span', class_='rating_num').get_text())
        
        # 评价人数
        votes = item.find('div', class_='star').find_all('span')[-1].get_text()
        votes = int(votes[:-3].replace(',', ''))  # 去除"人评价"文字和逗号
        
        # 其他信息...
        yield {
            'title': title,
            'rating': rating,
            'votes': votes,
            # 其他字段...
        }

注意：豆瓣页面结构可能调整，实际解析时需要根据最新HTML结构调整选择器。建议先用浏览器开发者工具检查元素结构。

3.3 分页处理与速率控制

Top250分布在10个页面，需要处理分页逻辑：

python复制base_url = 'https://movie.douban.com/top250?start={}&filter='

for start in range(0, 250, 25):
    url = base_url.format(start)
    html = get_page(url)
    if html:
        for item in parse_page(html):
            save_data(item)
    time.sleep(random.uniform(1, 3))  # 随机延迟避免被封

重要实践：

每页间隔1-3秒随机延迟
单次运行不要爬取全部数据
可以考虑使用代理IP池增强稳定性

4. 数据清洗与存储

4.1 数据清洗要点

原始数据需要经过以下处理：

处理缺失值（如某些电影没有特定字段）
统一格式（如将"1994"转换为整数年份）
提取关键信息（从复杂字符串中提取国家、类型等）
类型转换（字符串转数字、日期等）

示例清洗代码：

python复制def clean_data(df):
    # 处理国家信息
    df['country'] = df['info'].str.extract(r'制片国家/地区: (.*?)\n')
    
    # 处理年份
    df['year'] = df['info'].str.extract(r'(\d{4})').astype(int)
    
    # 处理时长
    df['duration'] = df['info'].str.extract(r'(\d+)分钟').astype(float)
    
    return df.dropna()  # 删除缺失值

4.2 数据存储方案

最简单的存储方式是CSV：

python复制import pandas as pd

def save_to_csv(data, filename='douban_top250.csv'):
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False, encoding='utf_8_sig')

进阶方案可以考虑：

SQLite：轻量级数据库，适合本地存储
MongoDB：文档型数据库，灵活存储非结构化数据
MySQL：关系型数据库，便于复杂查询

5. 数据分析与可视化

5.1 基础统计分析

加载数据后首先进行描述性统计：

python复制df = pd.read_csv('douban_top250.csv')
print(df.describe())

# 评分分布
print(df['rating'].value_counts().sort_index())

5.2 评分分布可视化

使用Matplotlib绘制评分直方图：

python复制import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10, 6))
sns.histplot(df['rating'], bins=20, kde=True)
plt.title('豆瓣Top250评分分布')
plt.xlabel('评分')
plt.ylabel('电影数量')
plt.show()

5.3 评分与评价人数关系

探索评分与热度（评价人数）的关系：

python复制plt.figure(figsize=(10, 6))
sns.scatterplot(x='rating', y='votes', data=df, alpha=0.6)
plt.title('评分与评价人数关系')
plt.xlabel('评分')
plt.ylabel('评价人数')
plt.yscale('log')  # 对数坐标
plt.show()

5.4 电影类型分析

提取并分析电影类型分布：

python复制# 提取所有类型
genres = df['genres'].str.split('/').explode()

plt.figure(figsize=(12, 6))
genres.value_counts().plot(kind='bar')
plt.title('电影类型分布')
plt.xlabel('类型')
plt.ylabel('数量')
plt.xticks(rotation=45)
plt.show()

6. 高级分析与洞察

6.1 评分随时间变化

分析不同年代电影的平均评分：

python复制df['decade'] = (df['year'] // 10) * 10  # 按年代分组
decade_avg = df.groupby('decade')['rating'].mean()

plt.figure(figsize=(10, 6))
decade_avg.plot(kind='line', marker='o')
plt.title('各年代平均评分变化')
plt.xlabel('年代')
plt.ylabel('平均评分')
plt.grid(True)
plt.show()

6.2 导演/演员分析

统计出现频率最高的导演：

python复制directors = df['director'].str.split('/').explode()
top_directors = directors.value_counts().head(10)

plt.figure(figsize=(12, 6))
top_directors.plot(kind='barh')
plt.title('出现次数最多的导演(Top10)')
plt.xlabel('电影数量')
plt.ylabel('导演')
plt.show()

6.3 评分预测模型（进阶）

可以尝试建立简单的线性回归模型，预测评分：

python复制from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# 选择特征
features = ['votes', 'duration', 'year']
X = df[features]
y = df['rating']

# 填充缺失值
X = X.fillna(X.mean())

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 评估
print(f'R^2 score: {model.score(X_test, y_test):.2f}')

7. 常见问题与解决方案

7.1 爬虫被封IP

现象：请求返回403状态码或验证码页面

解决方案：

增加请求头信息完整性
降低请求频率（增加随机延迟）
使用代理IP池
设置Cookies模拟登录状态

7.2 数据解析失败

现象：某些字段获取为空或报错

解决方案：

检查页面结构是否变化，更新选择器
添加try-except块处理异常情况
对关键字段添加空值检查

python复制try:
    title = item.find('span', class_='title').get_text()
except AttributeError:
    title = '未知'

7.3 数据存储乱码

现象：CSV文件中文显示为乱码

解决方案：

使用utf_8_sig编码而非utf-8
确保编辑器支持UTF-8编码
对于Excel，可以导出为UTF-8 BOM格式

7.4 数据分析异常值

现象：可视化图表出现不合理的数据点

解决方案：

检查数据清洗是否彻底
添加数据有效性验证
考虑使用中位数而非平均值
对极端值进行过滤或转换

8. 项目优化方向

8.1 爬虫优化

实现增量爬取：只获取新增或更新的电影
添加断点续爬功能
使用Scrapy框架重构，提高可维护性
集成代理IP自动切换机制

8.2 数据分析深化

情感分析：爬取短评进行情感倾向分析
关联分析：发现导演-演员-类型的关联规则
时间序列分析：追踪评分随时间的变化
构建推荐系统：基于内容或协同过滤

8.3 可视化增强

使用Plotly实现交互式可视化
构建Dash/Streamlit交互式仪表盘
创建地理热力图展示电影产地分布
使用词云展示电影标签

在实际操作中，我发现豆瓣的反爬策略会不定期调整，最稳妥的方法是控制请求频率，模拟人类浏览行为。对于数据分析部分，建议先做好数据清洗，脏数据会导致分析结果严重偏差。可视化时要注意选择合适的图表类型，避免信息过载。

Python爬虫实战：豆瓣Top250电影数据分析

1. 项目背景与价值解析

2. 技术方案设计

2.1 整体架构设计

2.2 技术选型考量

3. 爬虫实现细节

3.1 页面请求与反爬应对

3.2 数据解析实现

3.3 分页处理与速率控制

4. 数据清洗与存储

4.1 数据清洗要点

4.2 数据存储方案

5. 数据分析与可视化

5.1 基础统计分析

5.2 评分分布可视化

5.3 评分与评价人数关系

5.4 电影类型分析

6. 高级分析与洞察

6.1 评分随时间变化

6.2 导演/演员分析

6.3 评分预测模型（进阶）

7. 常见问题与解决方案

7.1 爬虫被封IP

7.2 数据解析失败

7.3 数据存储乱码

7.4 数据分析异常值

8. 项目优化方向

8.1 爬虫优化

8.2 数据分析深化

8.3 可视化增强

内容推荐