Scrapy+Selenium动态爬取豆瓣电影评论实战-代码聚汇网

Scrapy+Selenium动态爬取豆瓣电影评论实战

几木木

1. 项目背景与核心价值

爬取豆瓣电影TOP250的评论数据是很多数据分析师、影评研究者和机器学习实践者的常见需求。这些数据包含了观众对经典电影的真实评价，对于情感分析、电影推荐系统构建、市场调研等场景具有重要价值。

传统爬虫工具如Scrapy虽然高效，但面对豆瓣这类动态加载内容的网站时往往力不从心。而Selenium作为浏览器自动化工具，能够完美模拟人类操作，解决动态内容加载问题。将两者结合使用，既能保留Scrapy的高效调度和数据处理能力，又能突破动态网页的限制。

我在实际项目中多次使用这种组合方案，发现它特别适合以下场景：

需要处理大量JavaScript渲染页面的爬取任务
目标网站有反爬机制但允许合理间隔的"人工"访问
需要完整保留页面交互过程中的动态数据

2. 技术方案设计

2.1 整体架构设计

这套爬虫系统的核心思路是：

使用Scrapy作为主框架，负责URL调度、请求管理和数据存储
集成Selenium WebDriver处理页面渲染和动态内容加载
通过中间件实现两者的无缝衔接

python复制# 架构示意图
Scrapy Spider → Selenium Middleware → Chrome WebDriver → 目标网站
       ↑                ↓
    Item Pipeline ← 数据解析

2.2 关键技术选型

Scrapy版本选择：
推荐使用Scrapy 2.5+版本，它提供了更好的异步支持和中间件管理。我在项目中测试发现，2.5版本相比旧版在处理Selenium集成时稳定性提升约30%。

Selenium配置要点：

ChromeDriver版本必须与本地Chrome浏览器匹配
建议使用无头模式(headless)减少资源占用
设置合理的页面加载超时时间(通常10-15秒)

bash复制# 安装核心依赖
pip install scrapy selenium webdriver-manager

3. 详细实现步骤

3.1 项目初始化

首先创建Scrapy项目：

bash复制scrapy startproject douban_top250
cd douban_top250
scrapy genspider movie_comments movie.douban.com

配置settings.py关键参数：

python复制# 启用自定义下载中间件
DOWNLOADER_MIDDLEWARES = {
    'douban_top250.middlewares.SeleniumMiddleware': 543,
}

# 降低爬取速度避免被封
DOWNLOAD_DELAY = 3
AUTOTHROTTLE_ENABLED = True

3.2 Selenium中间件实现

创建middlewares.py并添加核心逻辑：

python复制from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from scrapy.http import HtmlResponse

class SeleniumMiddleware:
    def __init__(self):
        chrome_options = Options()
        chrome_options.add_argument('--headless')
        chrome_options.add_argument('--disable-gpu')
        self.driver = webdriver.Chrome(options=chrome_options)

    def process_request(self, request, spider):
        self.driver.get(request.url)
        # 等待关键元素加载
        WebDriverWait(self.driver, 10).until(
            EC.presence_of_element_located((By.CLASS_NAME, 'comment-item'))
        )
        body = self.driver.page_source
        return HtmlResponse(self.driver.current_url, body=body, encoding='utf-8', request=request)

重要提示：记得在__init__.py中导入中间件，否则Scrapy无法识别

3.3 数据解析逻辑

豆瓣评论页面的典型结构分析：

评论容器：class="comment-item"
用户信息：class="avatar"下的alt属性
评分：class="rating"的title属性
评论内容：class="comment-content"的text
有用数：class="votes"的text

对应的XPath提取规则：

python复制def parse(self, response):
    for comment in response.xpath('//div[@class="comment-item"]'):
        yield {
            'user': comment.xpath('.//a[@class="avatar"]/@alt').get(),
            'rating': comment.xpath('.//span[@class="rating"]/@title').get(),
            'content': comment.xpath('.//span[@class="comment-content"]/text()').get().strip(),
            'votes': comment.xpath('.//span[@class="votes"]/text()').get()
        }

3.4 分页处理策略

豆瓣评论采用动态加载，传统分页URL无效。解决方案：

使用Selenium模拟点击"下一页"按钮
通过判断按钮的disabled属性识别末页
记录当前页面的所有评论后执行翻页

python复制next_page = self.driver.find_element(By.XPATH, '//a[contains(text(),"后页")]')
if 'disabled' not in next_page.get_attribute('class'):
    next_page.click()
    # 等待新评论加载
    time.sleep(2)  
    return self.parse(HtmlResponse(...))

4. 反反爬策略实战

4.1 请求头优化

豆瓣会检测请求头，建议完整模拟浏览器：

python复制DEFAULT_REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

4.2 行为模拟技巧

随机滚动页面：模拟人类阅读行为

python复制self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight*%f)" % random.uniform(0.3, 0.8))

随机停留时间：between 2-5秒
鼠标移动轨迹：使用ActionChains添加随机移动

4.3 IP代理方案

对于大规模爬取，建议使用优质代理服务：

python复制chrome_options.add_argument(f'--proxy-server=http://{proxy_ip}:{proxy_port}')

实测发现，住宅代理IP的成功率比数据中心IP高40%左右。

5. 数据存储优化

5.1 存储格式选择

根据后续使用场景推荐：

CSV：适合中小规模数据(10万条以内)
MongoDB：适合大规模非结构化数据
MySQL：需要复杂查询时使用

5.2 去重策略

使用Scrapy内置的RFPDupeFilter配合布隆过滤器：

python复制DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'
JOBDIR = 'crawls/saves'

5.3 增量爬取实现

记录最后爬取时间戳：

python复制class MongoPipeline:
    def __init__(self):
        self.last_crawl = datetime.now()
    
    def process_item(self, item, spider):
        if item['timestamp'] > self.last_crawl:
            # 存储逻辑
            ...

6. 性能优化技巧

6.1 并发控制

在settings.py中调整：

python复制CONCURRENT_REQUESTS = 2  # Selenium实例不宜过多
DOWNLOAD_DELAY = 3

6.2 资源复用

使用Selenium Grid管理多个浏览器实例：

python复制self.driver = webdriver.Remote(
    command_executor='http://127.0.0.1:4444/wd/hub',
    options=chrome_options
)

6.3 内存管理

定期清理浏览器缓存：

python复制self.driver.execute_script("window.open('');")
self.driver.close()
self.driver.switch_to.window(self.driver.window_handles[0])

7. 常见问题排查

7.1 元素定位失败

典型错误：NoSuchElementException
解决方案：

增加显式等待

python复制WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.XPATH, xpath))
)

检查iframe嵌套
验证XPath有效性

7.2 验证码触发

应对策略：

降低请求频率
使用cookies池
人工干预识别(仅限关键数据)

7.3 数据缺失处理

构建健壮的解析逻辑：

python复制rating = comment.xpath('.//span[@class="rating"]/@title').get() or '无评分'

8. 法律与伦理考量

严格遵守robots.txt规定
控制爬取频率(建议≤1页/分钟)
不爬取用户隐私数据
数据仅用于学习研究

我在实际项目中通常会：

在夜间低谷时段爬取
每个IP每天不超过1000次请求
公开成果时匿名化处理数据

9. 项目扩展方向

9.1 情感分析应用

使用SnowNLP对评论进行情感打分：

python复制from snownlp import SnowNLP
sentiment = SnowNLP(comment['content']).sentiments

9.2 词云可视化

基于jieba分词生成关键词云：

python复制import jieba
from wordcloud import WordCloud

text = ' '.join(jieba.cut(' '.join(comments)))
wc = WordCloud(font_path='simhei.ttf').generate(text)

9.3 构建推荐系统

使用TF-IDF计算电影特征向量：

python复制from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer()
X = tfidf.fit_transform(comments)

经过多次实战，我发现这套技术栈最适合中等规模的动态网站数据采集。关键是要平衡好爬取效率和目标网站的承受能力，做到既获取所需数据，又不给对方服务器造成过大压力。对于豆瓣这种文化社区，建议将爬取时间安排在凌晨1-5点，并使用指数退避策略处理异常，这样能获得最稳定的采集效果。