Playwright实战：饿了么商圈热销数据采集方案-代码聚汇网

Playwright实战：饿了么商圈热销数据采集方案

Sky李晓峰

1. 项目概述：用Playwright采集饿了么商圈热销数据

最近在做一个餐饮行业数据分析项目时，需要获取不同城市商圈的热销商品数据。经过多轮技术选型，最终确定使用Playwright这个新兴的浏览器自动化工具来实现数据采集。相比传统的Selenium或Requests方案，Playwright在反爬对抗和地理位置伪装方面有着明显优势。

这个项目核心目标是：通过模拟不同地理位置的用户访问，获取饿了么平台上各商圈的热销商品榜单数据。这些数据对于餐饮行业竞品分析、选址决策和菜单优化都有重要参考价值。下面我将详细分享整个实现过程，包括技术选型考量、核心代码实现和实际踩坑经验。

2. 技术选型与方案设计

2.1 为什么选择Playwright？

在项目初期，我对比了几种主流的技术方案：

传统Requests+BeautifulSoup方案：
- 优点：轻量级，速度快
- 缺点：饿了么前端有大量动态渲染内容，直接请求API接口需要处理复杂签名和加密参数
Selenium方案：
- 优点：可以处理动态内容
- 缺点：执行效率低，地理位置伪装不够灵活
Playwright方案：
- 支持完整浏览器环境模拟
- 内置地理位置API覆盖
- 执行效率比Selenium高30%以上
- 完善的异步支持

实际测试发现，Playwright在反爬对抗成功率上达到92%，而Selenium只有65%左右。这是因为Playwright能更完美地模拟真实浏览器指纹。

2.2 整体架构设计

整个爬虫系统分为四个核心模块：

请求层：负责浏览器实例管理、地理位置伪装和页面加载
解析层：从页面中提取结构化数据
存储层：将数据持久化到本地文件
调度层：管理任务队列和失败重试

python复制# 架构伪代码示例
class ElemeSpider:
    def __init__(self):
        self.playwright = sync_playwright().start()
        self.browser = self.playwright.chromium.launch(headless=False)
        
    async def fetch_page(self, location):
        # 设置地理位置并加载页面
        pass
        
    async def parse_data(self, page):
        # 解析页面数据
        pass
        
    async def save_data(self, data):
        # 存储到CSV/数据库
        pass
        
    async def run(self):
        # 主调度逻辑
        pass

3. 核心实现细节

3.1 环境准备与依赖安装

首先需要安装必要的Python包：

bash复制pip install playwright beautifulsoup4 pandas
playwright install  # 安装浏览器驱动

建议使用Python 3.8+版本，我在3.10环境下测试通过。如果遇到安装问题，可以尝试：

使用清华镜像源加速安装
确保系统已安装必要的编译工具链
对于Windows用户，可能需要手动添加Playwright到系统PATH

3.2 地理位置伪装实现

Playwright提供了原生的地理位置API支持，这是本项目的关键技术点：

python复制from playwright.sync_api import sync_playwright

def get_browser_with_geolocation(latitude, longitude):
    playwright = sync_playwright().start()
    browser = playwright.chromium.launch(headless=False)
    
    context = browser.new_context(
        geolocation={"latitude": latitude, "longitude": longitude},
        permissions=["geolocation"]
    )
    
    return context

实际使用时，我们可以准备一个商圈坐标字典：

python复制locations = {
    "上海陆家嘴": (31.235929, 121.503090),
    "北京国贸": (39.913818, 116.479623),
    "广州天河": (23.135308, 113.331402)
}

3.3 页面请求与反爬对抗

饿了么的反爬机制主要包括：

行为检测（鼠标移动、点击模式）
指纹检测（浏览器特征）
IP频率限制

我们的应对策略：

python复制async def safe_fetch(page, url):
    # 随机延迟模拟人类操作
    await page.wait_for_timeout(random.randint(1000, 3000))
    
    # 随机滚动页面
    for _ in range(random.randint(3, 5)):
        await page.mouse.wheel(0, random.randint(200, 500))
        await page.wait_for_timeout(random.randint(500, 1500))
    
    # 使用代理IP
    await page.route("**/*", lambda route: route.continue_(
        {"headers": {"X-Forwarded-For": generate_random_ip()}}
    ))
    
    await page.goto(url, timeout=60000)

3.4 数据解析技巧

饿了么的页面结构比较复杂，需要多层解析：

python复制def parse_restaurant(page):
    # 使用Playwright内置选择器
    name = page.query_selector("h1.shop-name").inner_text()
    
    # 处理动态加载的评价数据
    async with page.expect_response("**/api/ratings**") as response_info:
        await page.click(".rating-tab")
    ratings = await response_info.value.json()
    
    # 提取商品数据
    items = []
    for item in page.query_selector_all(".food-item"):
        items.append({
            "name": item.query_selector(".name").inner_text(),
            "price": item.query_selector(".price").inner_text(),
            "month_sales": item.query_selector(".month-sales").inner_text()
        })
    
    return {
        "shop_info": {"name": name},
        "ratings": ratings,
        "items": items
    }

4. 数据存储与导出

采集到的数据建议使用Pandas进行清洗和存储：

python复制import pandas as pd

def save_to_csv(data, filename):
    df = pd.DataFrame(data)
    
    # 数据清洗
    df["price"] = df["price"].str.extract(r"(\d+\.?\d*)").astype(float)
    df["month_sales"] = df["month_sales"].str.extract(r"(\d+)").astype(int)
    
    # 保存文件
    df.to_csv(filename, index=False, encoding="utf_8_sig")

对于大规模采集，建议使用数据库存储。MySQL示例：

python复制from sqlalchemy import create_engine

def save_to_mysql(data):
    engine = create_engine("mysql+pymysql://user:pass@localhost/eleme")
    df = pd.DataFrame(data)
    df.to_sql("shop_data", engine, if_exists="append", index=False)

5. 实战经验与避坑指南

5.1 高频问题解决方案

页面加载不全：
- 增加等待超时时间
- 显式等待关键元素出现：await page.wait_for_selector(".shop-name")
- 检查是否有懒加载内容需要滚动触发
被识别为爬虫：
- 定期更换User-Agent
- 使用住宅代理而非数据中心代理
- 降低请求频率，增加随机延迟
地理位置不生效：
- 确保同时设置了geolocation和permissions
- 在页面中手动触发定位权限请求
- 检查浏览器控制台是否有权限错误

5.2 性能优化技巧

使用异步模式：

python复制async with async_playwright() as p:
    browser = await p.chromium.launch()
    # 异步操作

复用浏览器实例：
- 避免频繁启动/关闭浏览器
- 使用BrowserContext隔离不同任务

并行采集：

python复制import asyncio

async def batch_fetch(locations):
    tasks = [fetch_one(loc) for loc in locations]
    return await asyncio.gather(*tasks)

6. 商业应用与扩展思路

采集到的商圈热销数据可以有多种商业应用场景：

竞品分析：
- 监控同类商家的爆款商品
- 分析价格带分布
选址决策：
- 通过各商圈品类热度辅助选址
- 识别蓝海品类
菜单优化：
- 参考热销商品调整自家菜单
- 分析季节性销售趋势

对于进阶需求，可以考虑：

增加定时采集实现数据监控
结合POI数据做空间分析
搭建可视化看板展示数据洞察

我在实际项目中发现，华东地区下午茶品类在写字楼商圈的销量比住宅区高37%，这个数据帮助客户优化了配送资源配置。