从SteamDB免费游戏数据到个人订阅服务：一个混合爬虫策略的实战复盘

Nyoeghau

1. 为什么需要混合爬虫策略

第一次尝试爬取SteamDB免费游戏数据时，我天真地以为用Requests库就能轻松搞定。结果发现访问https://steamdb.info/upcoming/free/时，页面会自动跳转到一个验证页面。这就是典型的反爬机制——通过JavaScript计算表单数据并跳转，没有有效Cookie根本无法获取真实数据。

经过多次尝试，我发现这个反爬机制有几个特点：

Cookie有效期只有24小时
首次访问必须通过真实浏览器环境
后续请求可以复用Cookie

这让我意识到需要混合使用Selenium和Requests：

用Selenium模拟浏览器获取初始Cookie
用Requests维持会话提高效率
当Cookie失效时自动切换回Selenium

实测下来，纯Requests方案的成功率不到10%，而混合策略能达到99%以上。这种动态切换的思路后来被我应用到其他需要登录的网站爬取中，效果都很稳定。

2. 技术实现细节与踩坑记录

核心代码其实很简单，但魔鬼藏在细节里。我最初用ChromeDriver，后来发现Firefox在无头模式下更稳定：

python复制def update_cookie():
    option = webdriver.FirefoxOptions()
    option.add_argument('--headless')
    driver = webdriver.Firefox(options=option)
    driver.get('https://steamdb.info/upcoming/free/')
    
    # 关键：等待特定元素加载完成
    WebDriverWait(driver, 15).until(
        lambda d: d.find_element_by_id('live-promotions'))
    
    with open('cookie.txt', 'w') as f:
        for cookie in driver.get_cookies():
            f.write(f"{cookie['name']},{cookie['value']}\n")

踩过的坑包括：

没加等待直接获取Cookie导致失败
Cookie文件格式错误导致读取失败
没有处理Cookie过期的情况

2.2 请求失败的重试机制

完善的错误处理是服务稳定的关键。我的重试逻辑分三级：

首次用Requests带Cookie尝试
失败后更新Cookie重试
仍然失败则记录日志并等待下次定时任务

python复制def get_html():
    session = requests.Session()
    try:
        # 读取本地Cookie文件
        with open('cookie.txt') as f:
            cookies = {name:value for name,value in 
                      [line.strip().split(',') for line in f]}
        
        response = session.get(url, cookies=cookies)
        if response.status_code == 200:
            return response
            
        # 状态码异常时更新Cookie
        if update_cookie():
            return get_html()  # 递归重试
            
    except Exception as e:
        log_error(f"请求失败: {str(e)}")
    return None

3. 从脚本到服务的架构演进

3.1 数据库设计优化

初期直接用CSV存储数据，后来发现查询效率太低。改用SQLAlchemy后设计了两个表：

python复制class Steamfree(db.Model):
    __tablename__ = 'steam_free_games'
    id = db.Column(db.Integer, primary_key=True)
    name = db.Column(db.String(200))  # 游戏名称
    link = db.Column(db.Text)         # Steam链接
    start_time = db.Column(db.DateTime) # 免费开始时间
    end_time = db.Column(db.DateTime)   # 免费结束时间

class Subscription(db.Model):
    __tablename__ = 'subscriptions'
    id = db.Column(db.Integer, primary_key=True)
    email = db.Column(db.String(120), unique=True)
    confirmed = db.Column(db.Boolean, default=False)

特别注意的点：

添加了索引提高查询速度
使用DateTime类型方便时间计算
订阅表增加确认字段防止垃圾注册

3.2 定时任务实现

选用APScheduler作为任务调度器，主要考虑它：

支持持久化存储任务状态
与Flask集成简单
提供丰富的触发器选项

配置示例：

python复制from apscheduler.schedulers.background import BackgroundScheduler

scheduler = BackgroundScheduler()
scheduler.add_job(
    func=update_game_data,
    trigger='interval',
    hours=6,
    misfire_grace_time=300
)
scheduler.add_job(
    func=send_daily_digest,
    trigger='cron',
    hour=10,
    minute=0
)

4. 前端展示与用户订阅

4.1 邮件模板设计

为了让邮件更专业，我使用了HTML模板：

html复制<div style="font-family: Arial, sans-serif; max-width: 600px;">
  <h2 style="color: #1a5276;">今日Steam免费游戏</h2>
  
  {% for game in games %}
  <div style="margin-bottom: 20px; border-bottom: 1px solid #eee;">
    <h3>{{ game.name }}</h3>
    <p>类型: {{ game.type }}</p>
    <p>免费时间: {{ game.start }} 至 {{ game.end }}</p>
    <a href="{{ game.link }}" style="color: #2980b9;">查看详情</a>
  </div>
  {% endfor %}
  
  <p style="font-size: 12px; color: #7f8c8d;">
    不想再接收此类邮件？<a href="{{ unsubscribe_url }}">退订</a>
  </p>
</div>

4.2 订阅管理功能

实现订阅/退订功能时特别注意了：

使用双重确认防止恶意注册
记录操作日志便于排查问题
提供一键退订链接

核心视图函数：

python复制@app.route('/subscribe', methods=['POST'])
def subscribe():
    email = request.form.get('email')
    if not validate_email(email):
        return "无效邮箱地址", 400
        
    # 检查是否已订阅
    existing = Subscription.query.filter_by(email=email).first()
    if existing:
        return "该邮箱已订阅", 409
        
    # 发送确认邮件
    token = generate_token(email)
    send_confirmation_email(email, token)
    
    return "确认邮件已发送，请查收", 200

整个项目从最初几十行的爬虫脚本，逐步演进为包含前后端的完整服务。最大的收获是认识到系统设计时预留扩展性的重要性，比如后来新增的游戏类型过滤功能，就因为有良好的代码结构而能快速实现。

已经到底了哦

精选内容

1 FreeBSD新手避坑指南：VMware安装时这几个选项千万别选错（含时区、分区、服务配置详解）2 YOLO V8-Pose 【从零构建】推理引擎拆解与自定义实现 3 CVPR'25医图新突破｜BrainMVP解锁多模态MRI预训练，仅需40%标注数据实现脑部分割性能飞跃 4 Matlab GUI交互设计：slider与edit控件联动实现参数可视化调节 5 QGC二次开发：从源码剖析到自定义插件实战 6 告别192.168.2.99：ZCU104 Pynq板卡三种网络连接方案详解（含无显示器配置）7 XMind进阶指南：解锁高效思维导图的核心技巧 8 从DEM到滑坡预测：如何利用TripleSat高程数据提升语义分割模型（以PyTorch为例）9 信息学奥赛解题精讲：从OpenJudge NOI 1.4 19题看简单计算器的实现与边界处理 10 从BLAS到异构计算：高性能线性代数库的演进与实战选型