Python爬虫实战：高效抓取Hacker News技术趋势

诚哥馨姐

1. 项目概述：为什么要爬取Hacker News？

Hacker News（简称HN）作为全球知名的技术社区，每天汇聚着来自硅谷工程师、创业者和技术爱好者的前沿讨论。但官方提供的API功能有限，无法直接获取按热度排序的每日精华内容。这就是为什么我们需要自己动手构建爬虫——不仅能定制化获取数据，还能深入理解现代反爬机制下的网页抓取策略。

我曾在多个数据挖掘项目中需要实时追踪技术趋势，发现手动收集HN热门信息效率极低。通过Python实现自动化抓取后，每天只需3秒就能获取完整的热门资讯列表，配合自动化分析 pipeline，工作效率提升了20倍。下面分享的这套方案已经稳定运行超过400天，日均处理请求量超过5万次。

2. 技术选型与工具链搭建

2.1 核心组件对比

python复制# 工具链示例
import requests
from bs4 import BeautifulSoup
import pandas as pd
from concurrent.futures import ThreadPoolExecutor

选择Requests+BeautifulSoup组合而非Scrapy，主要基于三点考量：

HN的页面结构相对简单，不需要完整的爬虫框架
轻量级方案更易于定制特殊处理逻辑
部署成本低，适合快速迭代

实测显示，该方案在AWS t3.micro实例上：

单线程抓取30页耗时8.2秒
启用4线程后降至2.3秒
内存占用始终低于50MB

2.2 反爬对抗策略

HN虽然没有严格的反爬系统，但仍需注意：

请求间隔：建议≥500ms，实测连续请求超过20次/分钟会触发临时封禁
User-Agent轮换：准备5组主流浏览器标识
异常重试：对503/429状态码实现指数退避重试

python复制headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)',
    'Accept-Language': 'en-US,en;q=0.9'
}

3. 页面解析与数据提取

3.1 DOM结构深度解析

HN的列表页采用经典的

布局，每个条目对应：

html复制<tr class="athing">
  <td class="title">
    <a href="[链接]">[标题]</a>
    <span class="sitebit">([域名])</span>
  </td>
</tr>
<tr>
  <td class="subtext">
    [分数] points by [作者] [时间] | [评论数] comments
  </td>
</tr>

关键数据提取逻辑：

python复制def parse_item(item):
    title_tag = item.find('a', href=True)
    return {
        'rank': item.find('span', {'class': 'rank'}).text.strip('.'),
        'title': title_tag.text,
        'url': title_tag['href'],
        'domain': item.find('span', {'class': 'sitebit'}).text[1:-1] if item.find('span', {'class': 'sitebit'}) else None,
        'score': item.find_next_sibling('tr').find('span', {'class': 'score'}).text.split()[0] if item.find_next_sibling('tr').find('span', {'class': 'score'}) else 0,
        'comments': extract_comments(item.find_next_sibling('tr').find('a', string=lambda x: x and 'comment' in x.lower()).text)
    }

3.2 数据清洗的坑与解决方案

分数格式处理：
- "256 points" → 256
- "[deleted]" → 0
评论数提取：
- "discuss" → 0
- "123 comments" → 123
- "comment" → 1 (单数情况)
域名提取的边界情况：
- 直接链接到HN站内（show hn等）
- YouTube等特殊域名的处理

4. 高效爬取架构设计

4.1 分页控制策略

HN的最新列表有30页，但热门内容通常集中在前5页。我们采用动态深度策略：

基础抓取：前3页（约90条）
扩展模式：当第3页最低分数>200时，继续抓取直到分数<150
使用Last-Modified头判断内容更新

python复制def should_continue(next_page, current_min_score):
    if next_page > 5: 
        return False
    return current_min_score > 150 if next_page > 3 else True

4.2 并发优化方案

虽然HN不限制合理并发的爬取，但为避免影响他人使用，建议：

每域名最大连接数：2
延迟时间：500-1000ms
错误率超过5%时自动降级

python复制with ThreadPoolExecutor(max_workers=4) as executor:
    futures = [executor.submit(fetch_page, p) for p in range(1, pages+1)]
    results = [f.result() for f in as_completed(futures)]

5. 数据存储与分析

5.1 结构化存储方案

推荐使用SQLite+CSV双备份：

python复制# SQLite操作示例
import sqlite3
conn = sqlite3.connect('hn_top.db')
df.to_sql('items', conn, if_exists='append', index=False)

# 同时保存CSV
df.to_csv(f'hn_{date.today()}.csv', encoding='utf-8-sig')

字段设计包含：

基础信息：标题、链接、域名
互动数据：分数、评论数
时间维度：抓取时间、发布时间
衍生字段：域名类型、标题关键词

5.2 自动化分析技巧

热门领域识别：

python复制top_domains = df['domain'].value_counts().head(10)

标题词云生成：

python复制from wordcloud import WordCloud
text = ' '.join(df['title'].str.lower())
WordCloud().generate(text).to_file('wordcloud.png')

趋势变化监测：

python复制daily_stats = df.groupby(pd.to_datetime(df['time']).dt.date).agg({
    'score': 'mean',
    'comments': 'sum'
})

6. 生产环境部署方案

6.1 定时任务配置

使用systemd timer实现每日自动运行：

ini复制# /etc/systemd/system/hn-crawler.timer
[Unit]
Description=Daily HN crawler

[Timer]
OnCalendar=*-*-* 08:00:00
Persistent=true

[Install]
WantedBy=timers.target

配合日志轮转：

bash复制# /etc/logrotate.d/hn-crawler
/var/log/hn-crawler.log {
    daily
    rotate 7
    compress
    missingok
}

6.2 监控与告警

关键监控指标：

成功率：<95%触发告警
平均耗时：>10秒告警
数据量：当日<50条告警

使用Prometheus客户端暴露指标：

python复制from prometheus_client import start_http_server, Counter
REQUESTS_TOTAL = Counter('hn_requests', 'Total fetch requests')
start_http_server(8000)

7. 高级技巧与优化

7.1 智能去重策略

传统MD5去重存在缺陷，改进方案：

URL规范化：去除追踪参数、统一HTTP/HTTPS
标题相似度：使用difflib.SequenceMatcher
内容指纹：对目标页面提取正文生成SimHash

python复制from difflib import SequenceMatcher

def is_duplicate(a, b):
    url_sim = SequenceMatcher(None, a['url'], b['url']).ratio()
    title_sim = SequenceMatcher(None, a['title'], b['title']).ratio()
    return url_sim > 0.9 or title_sim > 0.85

7.2 增量抓取优化

利用HN的Firebase API获取实时更新：

python复制import firebase_admin
from firebase_admin import db

cred = firebase_admin.credentials.Certificate('key.json')
app = firebase_admin.initialize_app(cred, {
    'databaseURL': 'https://hacker-news.firebaseio.com'
})
top_stories = db.reference('v0/topstories').get()