Python爬虫实战：豆瓣图书Top250数据采集全流程

成为夏目

1. 豆瓣图书Top250数据采集实战指南

作为一名长期从事数据采集工作的开发者，我经常需要从各类网站获取公开数据进行分析。豆瓣图书Top250榜单是一个非常适合新手练手的数据采集项目，它结构清晰、数据规范，同时又能覆盖数据采集的多个核心环节。下面我将分享一套完整的采集方案，包含从基础请求到数据解析的全流程实现。

1.1 环境准备与工具选型

在开始采集前，我们需要准备好Python开发环境。我推荐使用Python 3.6+版本，并安装以下核心库：

bash复制pip install requests beautifulsoup4 lxml

选择这些工具的原因很明确：

requests：比Python内置的urllib更简洁易用，社区支持更好
beautifulsoup4：HTML解析神器，支持多种解析方式
lxml：解析速度快，内存占用低，是BeautifulSoup推荐的解析器

注意：在实际工作中，建议使用虚拟环境管理项目依赖，避免不同项目间的库版本冲突。可以使用python -m venv venv创建虚拟环境。

1.2 基础请求实现

让我们从最基本的HTTP请求开始。豆瓣Top250采用分页设计，每页显示25条数据，共10页。以下是获取第一页数据的代码：

python复制import requests

url = "https://book.douban.com/top250"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

response = requests.get(url, headers=headers)
print(response.status_code)  # 打印响应状态码

这里有几个关键点需要注意：

User-Agent：模拟浏览器访问，避免被识别为爬虫
HTTPS：豆瓣使用HTTPS协议，确保请求地址正确
响应检查：始终检查status_code，确保请求成功

1.3 分页参数处理

豆瓣使用start参数控制分页，每页25条数据。要获取全部数据，我们需要循环处理分页：

python复制for page in range(0, 10):
    params = {"start": page * 25}
    response = requests.get(url, headers=headers, params=params)
    
    if response.status_code == 200:
        print(f"成功获取第{page+1}页数据")
    else:
        print(f"获取第{page+1}页数据失败，状态码：{response.status_code}")

2. 数据解析与提取

2.1 HTML解析基础

获取到HTML响应后，我们需要从中提取有用的数据。BeautifulSoup是处理HTML的利器：

python复制from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, "lxml")
book_items = soup.select("tr.item")  # 选择所有图书条目

豆瓣图书页面的每个图书条目都包含在一个tr标签中，class为"item"。我们可以通过CSS选择器精准定位这些元素。

2.2 关键数据提取

每本图书包含多种信息，我们需要分别提取：

python复制for item in book_items:
    # 书名
    title = item.select_one("div.pl2 a").get_text(strip=True)
    
    # 作者/出版社/出版年份等信息
    pub_info = item.select_one("p.pl").get_text(strip=True)
    
    # 评分
    rating = item.select_one("span.rating_nums").get_text(strip=True)
    
    # 评价人数
    rating_count = item.select_one("span.pl").get_text(strip=True)[1:-1]
    
    # 价格
    price = item.select_one("span.buy-info").get_text(strip=True).split("/")[-1]
    
    print(f"书名：{title}")
    print(f"信息：{pub_info}")
    print(f"评分：{rating}（{rating_count}人评价）")
    print(f"价格：{price}")
    print("-" * 50)

2.3 数据清洗与规范化

原始数据往往需要清洗才能使用：

python复制def clean_pub_info(info):
    """清洗出版信息"""
    parts = info.split("/")
    author = parts[0].strip()
    publisher = parts[-3].strip() if len(parts) >= 3 else ""
    pub_date = parts[-2].strip() if len(parts) >= 2 else ""
    price = parts[-1].strip() if len(parts) >= 1 else ""
    return author, publisher, pub_date, price

3. 反爬策略应对

3.1 请求头优化

除了基本的User-Agent，还可以添加更多请求头字段：

python复制headers = {
    "User-Agent": "Mozilla/5.0...",
    "Accept": "text/html,application/xhtml+xml...",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Referer": "https://book.douban.com/",
    "Connection": "keep-alive"
}

3.2 请求频率控制

避免过快请求导致被封：

python复制import time
import random

for page in range(0, 10):
    time.sleep(random.uniform(1, 3))  # 随机等待1-3秒
    # 发起请求...

3.3 IP代理使用

对于大规模采集，建议使用代理IP：

python复制proxies = {
    "http": "http://your_proxy:port",
    "https": "http://your_proxy:port"
}

response = requests.get(url, headers=headers, proxies=proxies)

4. 数据存储方案

4.1 CSV存储

最简单的数据存储方式：

python复制import csv

with open("douban_top250.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerow(["书名", "作者", "出版社", "出版日期", "评分", "评价人数", "价格"])
    
    for book in books:
        writer.writerow([...])  # 填入实际数据

4.2 数据库存储

对于更复杂的需求，可以使用SQLite或MySQL：

python复制import sqlite3

conn = sqlite3.connect("books.db")
cursor = conn.cursor()

cursor.execute("""
CREATE TABLE IF NOT EXISTS books (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    title TEXT,
    author TEXT,
    publisher TEXT,
    pub_date TEXT,
    rating REAL,
    rating_count INTEGER,
    price TEXT
)
""")

# 插入数据
cursor.execute("INSERT INTO books VALUES (?,?,?,?,?,?,?,?)", [...])
conn.commit()

5. 常见问题与解决方案

5.1 请求被拒绝（403错误）

可能原因及解决方案：

User-Agent被识别：更换更常见的User-Agent字符串
请求频率过高：增加延迟，使用随机间隔
IP被封：使用代理IP或暂停采集一段时间

5.2 数据提取不准确

调试技巧：

先打印整个HTML，确认是否获取到完整页面
逐步测试CSS选择器，确保定位准确
使用try-except处理可能缺失的字段

5.3 页面结构变化

应对策略：

定期检查采集脚本是否仍然有效
将CSS选择器等易变部分提取为配置项
实现自动化的结构变化检测机制

6. 项目优化建议

6.1 异步请求加速

使用aiohttp实现异步请求，大幅提升采集速度：

python复制import aiohttp
import asyncio

async def fetch_page(session, page):
    url = f"https://book.douban.com/top250?start={page*25}"
    async with session.get(url, headers=headers) as response:
        return await response.text()

async def main():
    async with aiohttp.ClientSession() as session:
        tasks = [fetch_page(session, page) for page in range(10)]
        pages = await asyncio.gather(*tasks)
        # 处理页面...