使用Playwright实现得到App热门圈子数据爬取

Dyingalive

1. 项目概述

最近在研究如何获取得到App知识城邦热门圈子的动态内容时，我发现Playwright这个工具确实是个不错的选择。作为一个长期从事Python爬虫开发的工程师，我想分享一下这个实战项目的完整实现过程，包括技术选型、核心实现和常见问题处理。

这个项目的主要目标是获取得到App知识城邦中热门圈子的动态内容，包括帖子标题、作者、发布时间、点赞数等关键信息。相比传统的爬虫方案，使用Playwright可以更好地模拟真实用户操作，有效应对现代Web应用常见的反爬机制。

2. 技术选型与整体流程

2.1 为什么选择Playwright

在评估了多种爬虫方案后，我最终选择了Playwright作为核心工具，主要基于以下几个考虑：

跨平台支持：Playwright支持Windows、macOS和Linux三大平台，且API完全一致
多语言支持：除了Python，还支持JavaScript、Java和.NET
现代化架构：原生支持单页应用(SPA)和动态内容加载
强大的自动化能力：可以模拟几乎所有用户操作，包括点击、滚动、表单填写等
内置等待机制：自动等待元素加载完成，减少手动设置等待时间的麻烦

2.2 整体爬取流程设计

整个爬取流程可以分为以下几个关键步骤：

启动浏览器实例：配置合适的浏览器参数
模拟登录：处理得到App的登录流程
导航至目标页面：定位到知识城邦的热门圈子
动态加载内容：模拟滚动操作加载更多内容
提取目标数据：解析页面结构获取所需信息
数据存储：将结果保存到本地文件或数据库
资源清理：关闭浏览器实例释放资源

3. 环境准备与依赖安装

3.1 Python环境配置

建议使用Python 3.8或更高版本。可以使用conda或venv创建虚拟环境：

bash复制python -m venv playwright-env
source playwright-env/bin/activate  # Linux/macOS
playwright-env\Scripts\activate  # Windows

3.2 安装必要依赖

核心依赖包包括：

bash复制pip install playwright
playwright install  # 安装浏览器二进制文件

3.3 开发工具推荐

代码编辑器：VS Code + Python插件
调试工具：Playwright自带的调试器
网络分析：浏览器开发者工具(F12)

4. 核心实现：请求层(Fetcher)

4.1 浏览器实例初始化

python复制from playwright.sync_api import sync_playwright

def init_browser(headless=False):
    with sync_playwright() as p:
        browser = p.chromium.launch(
            headless=headless,
            args=[
                '--disable-blink-features=AutomationControlled',
                '--start-maximized'
            ]
        )
        context = browser.new_context(
            user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
            viewport={'width': 1920, 'height': 1080}
        )
        page = context.new_page()
        return browser, page

4.2 模拟登录实现

得到App的登录流程相对复杂，需要处理以下几个关键点：

账号密码输入：定位正确的输入框
验证码处理：可能需要人工干预
登录状态保持：保存cookies避免重复登录

python复制def login(page, username, password):
    page.goto('https://www.dedao.cn/login')
    page.fill('input[name="username"]', username)
    page.fill('input[name="password"]', password)
    
    # 处理可能的验证码
    if page.is_visible('.captcha-container'):
        input('请手动完成验证码后按回车继续...')
    
    page.click('button[type="submit"]')
    page.wait_for_selector('.user-avatar', timeout=10000)
    
    # 保存登录状态
    context = page.context
    context.storage_state(path='auth.json')

5. 核心实现：解析层(Parser)

5.1 页面结构分析

得到App知识城邦的页面结构特点：

动态加载：内容通过滚动加载更多
复杂DOM：多层嵌套的div结构
数据属性：关键信息存储在data-*属性中

5.2 数据提取实现

python复制def extract_posts(page):
    posts = []
    items = page.query_selector_all('.post-item')
    
    for item in items:
        post = {
            'title': item.query_selector('.post-title').inner_text(),
            'author': item.query_selector('.author-name').inner_text(),
            'publish_time': item.get_attribute('data-time'),
            'like_count': int(item.query_selector('.like-count').inner_text()),
            'comment_count': int(item.query_selector('.comment-count').inner_text()),
            'content': item.query_selector('.post-content').inner_text()
        }
        posts.append(post)
    
    return posts

5.3 分页处理技巧

由于得到App采用无限滚动加载，需要模拟滚动操作：

python复制def scroll_to_bottom(page):
    prev_height = page.evaluate('document.body.scrollHeight')
    while True:
        page.evaluate('window.scrollTo(0, document.body.scrollHeight)')
        page.wait_for_timeout(2000)  # 等待内容加载
        new_height = page.evaluate('document.body.scrollHeight')
        if new_height == prev_height:
            break
        prev_height = new_height

6. 数据存储与导出

6.1 存储方案选择

根据数据量和使用场景，可以考虑以下几种存储方式：

JSON文件：适合小规模数据
CSV文件：便于Excel分析
SQLite数据库：结构化存储
MongoDB：非结构化灵活存储

6.2 JSON存储实现

python复制import json
from datetime import datetime

def save_to_json(data, filename=None):
    if not filename:
        filename = f'posts_{datetime.now().strftime("%Y%m%d_%H%M%S")}.json'
    
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=2)
    
    print(f'数据已保存到 {filename}')

6.3 CSV存储实现

python复制import csv

def save_to_csv(data, filename=None):
    if not filename:
        filename = f'posts_{datetime.now().strftime("%Y%m%d_%H%M%S")}.csv'
    
    keys = data[0].keys() if data else []
    
    with open(filename, 'w', newline='', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=keys)
        writer.writeheader()
        writer.writerows(data)
    
    print(f'数据已保存到 {filename}')

7. 完整爬取流程实现

7.1 主函数设计

python复制def main():
    # 初始化浏览器
    browser, page = init_browser(headless=False)
    
    try:
        # 登录(如果已有cookies可以跳过)
        if not os.path.exists('auth.json'):
            login(page, 'your_username', 'your_password')
        else:
            context = page.context
            context.storage_state(path='auth.json')
        
        # 导航至目标页面
        page.goto('https://www.dedao.cn/knowledge/circle/hot')
        page.wait_for_selector('.post-item', timeout=10000)
        
        # 滚动加载所有内容
        scroll_to_bottom(page)
        
        # 提取数据
        posts = extract_posts(page)
        print(f'共获取到 {len(posts)} 条帖子')
        
        # 保存数据
        save_to_json(posts)
        save_to_csv(posts)
        
    finally:
        browser.close()

7.2 定时任务设计

如果需要定期爬取，可以结合APScheduler实现：

python复制from apscheduler.schedulers.blocking import BlockingScheduler

scheduler = BlockingScheduler()

@scheduler.scheduled_job('interval', hours=6)
def scheduled_job():
    print('开始定时爬取任务...')
    main()

if __name__ == '__main__':
    scheduler.start()