Python爬虫实战：绕过豆瓣反爬获取影视评分数据-代码聚汇网

Python爬虫实战：绕过豆瓣反爬获取影视评分数据

芙蓉塘外有轻雷

1. 项目背景与核心目标

最近在做一个数据分析项目时需要采集豆瓣的影视评分数据，研究了一下如何通过Python爬虫获取豆瓣网站的响应数据。这个需求其实挺常见的——无论是做市场分析、学术研究还是个人兴趣项目，都可能需要从豆瓣这类内容平台获取结构化数据。

豆瓣网站的反爬机制算是国内网站中比较完善的，直接requests.get()大概率会收到403错误。经过多次尝试和调试，我总结出一套相对稳定的数据采集方案，能够绕过基础的反爬措施获取到需要的HTML响应数据。下面就把具体实现方法和踩过的坑详细分享一下。

2. 技术方案选型与工具准备

2.1 基础工具选择

对于这种中等规模的网页数据采集，我的工具栈选择是：

Python 3.8+ 作为开发语言
Requests库处理HTTP请求
BeautifulSoup4解析HTML
随机User-Agent库生成不同浏览器标识

不选择Scrapy这类框架的原因是：豆瓣的页面结构相对简单，用轻量级工具足够应对，而且更便于精细控制请求频率和参数。

2.2 反爬应对策略

豆瓣主要采用了以下几种反爬机制：

User-Agent检测：非浏览器UA直接拒绝
请求频率限制：短时间高频请求会封IP
Cookie验证：部分接口需要携带会话cookie
行为验证：异常流量会触发验证码

我们的应对方案是：

轮换User-Agent模拟不同浏览器
设置3-5秒的随机请求间隔
维持会话状态
控制单IP的采集速度

3. 核心代码实现详解

3.1 请求头配置

python复制import requests
from fake_useragent import UserAgent

ua = UserAgent()
headers = {
    'User-Agent': ua.random,
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Referer': 'https://www.douban.com/'
}

这里特别注意：

User-Agent要使用随机生成的
需要添加Accept-Language头
Referer最好设置为豆瓣域名

3.2 会话维持与请求发送

python复制session = requests.Session()

def get_page(url):
    try:
        resp = session.get(url, headers=headers, timeout=10)
        resp.raise_for_status()
        if resp.status_code == 200:
            return resp.text
    except Exception as e:
        print(f"请求失败: {e}")
        return None

使用Session对象可以自动处理cookies，比单次请求更稳定。超时设置建议在8-10秒之间，太短容易因网络波动失败，太长会降低效率。

3.3 频率控制实现

python复制import random
import time

def random_delay():
    time.sleep(random.uniform(3, 5))  # 3-5秒随机延迟

# 使用示例
random_delay()
page_html = get_page("https://movie.douban.com/subject/1292052/")

这个简单的随机延迟可以有效避免触发频率限制。对于大规模采集，建议进一步优化为：

白天采集间隔5-8秒
夜间采集间隔3-5秒
每采集20页休息1分钟

4. 数据解析与存储

4.1 HTML解析示例

python复制from bs4 import BeautifulSoup

def parse_movie_page(html):
    soup = BeautifulSoup(html, 'lxml')
    
    title = soup.find('h1').find('span').text
    rating = soup.find('strong', class_='rating_num').text
    rating_count = soup.find('div', class_='rating_sum').find('a').text
    
    return {
        'title': title,
        'rating': float(rating),
        'rating_count': rating_count
    }

豆瓣的页面结构比较规范，使用BS4可以轻松提取需要的数据。注意几个细节：

使用lxml解析器速度更快
class名称可能会微调，需要定期检查
文本数据需要做清洗处理

4.2 数据存储方案

对于中小规模数据，我推荐使用SQLite：

python复制import sqlite3

def init_db():
    conn = sqlite3.connect('douban_data.db')
    c = conn.cursor()
    c.execute('''CREATE TABLE IF NOT EXISTS movies
                 (title text, rating real, rating_count text)''')
    conn.commit()
    return conn

大规模数据建议使用MongoDB，更适合非结构化存储。无论哪种方案，都要注意：

定期备份数据
添加异常处理
考虑数据去重

5. 常见问题与解决方案

5.1 请求返回403错误

可能原因：

User-Agent被识别为爬虫
IP被临时封禁
缺少必要请求头

解决方案：

检查User-Agent是否有效
更换IP或等待30分钟
添加Referer和Accept-Language头

5.2 数据提取失败