Python爬虫实战：Hacker News数据抓取与分析-代码聚汇网

Python爬虫实战：Hacker News数据抓取与分析

为了晴子

1. 为什么选择Hacker News作为爬虫实战目标

作为一个技术从业者，我经常需要获取最新的技术动态和行业资讯。Hacker News（简称HN）作为全球知名的技术社区，汇集了大量高质量的技术文章、创业故事和行业讨论。但手动浏览HN既耗时又容易错过重要内容，这正是我们需要构建一个自动化爬虫的原因。

与普通新闻网站不同，HN有几个独特之处值得注意：

页面结构简洁但更新频繁
采用服务器端渲染而非前端动态加载
没有复杂的反爬机制但要求合理访问频率
内容价值密度高但排序算法特殊

这些特点使得HN成为Python爬虫入门的理想练习场，既能学习基础爬取技术，又不会一开始就陷入复杂的反爬对抗中。

2. 环境准备与基础工具选择

2.1 Python环境配置

我推荐使用Python 3.8+版本，这个版本在稳定性和新特性之间取得了良好平衡。如果你还没有安装Python，可以按照以下步骤操作：

访问Python官网下载对应系统的安装包
安装时务必勾选"Add Python to PATH"选项
安装完成后，在终端运行python --version验证安装

提示：使用虚拟环境是个好习惯，可以通过python -m venv hn-env创建，然后用source hn-env/bin/activate（Linux/Mac）或hn-env\Scripts\activate（Windows）激活。

2.2 必备库安装

我们将使用以下几个核心库：

requests：发送HTTP请求
BeautifulSoup：解析HTML
pandas：数据处理和存储
time：控制请求间隔

安装命令：

bash复制pip install requests beautifulsoup4 pandas

2.3 开发工具选择

虽然任何文本编辑器都能写Python代码，但我推荐使用VS Code或PyCharm这类专业IDE，它们提供：

代码自动补全
调试支持
虚拟环境管理
Git集成

特别是VS Code的Python插件能极大提升开发效率，配置方法很简单：

安装VS Code
打开扩展市场搜索"Python"
安装微软官方提供的Python扩展

3. 爬虫核心实现步骤

3.1 分析HN页面结构

首先我们需要了解HN的HTML结构。打开HN首页，右键"检查"元素，你会发现：

每条新闻都在<tr class="athing">标签中
标题在<a class="storylink">内
分数在<span class="score">中
评论数在<a href="item?id=XXXX">XX comments</a>中

这种清晰的结构让解析变得简单。我们可以用以下CSS选择器定位元素：

标题：.storylink
链接：.storylink的href属性
分数：.score
评论：a[href^="item?id="]的最后一条

3.2 基础爬取代码实现

下面是一个完整的爬取脚本：

python复制import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

def fetch_hn_front_page():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }
    url = 'https://news.ycombinator.com/'
    
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        
        soup = BeautifulSoup(response.text, 'html.parser')
        stories = []
        
        for item in soup.select('tr.athing'):
            title_elem = item.select_one('.titleline > a')
            if not title_elem:
                continue
                
            title = title_elem.text
            link = title_elem['href']
            
            # 获取分数和评论数需要找到相邻的tr
            next_tr = item.find_next_sibling('tr')
            if not next_tr:
                continue
                
            score = next_tr.select_one('.score')
            score = score.text if score else '0 points'
            
            comments = next_tr.select('a[href^="item?id="]')[-1].text 
            comments = comments if 'comment' in comments else '0 comments'
            
            stories.append({
                'title': title,
                'link': link,
                'score': score,
                'comments': comments
            })
        
        return stories
    
    except Exception as e:
        print(f"Error fetching HN: {e}")
        return []

def save_to_csv(data, filename='hn_top.csv'):
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False)
    print(f"Saved {len(data)} stories to {filename}")

if __name__ == '__main__':
    print("Fetching Hacker News front page...")
    stories = fetch_hn_front_page()
    save_to_csv(stories)
    print("Done!")

3.3 代码关键点解析

User-Agent设置：虽然HN对爬虫友好，但设置合理的User-Agent是基本礼仪。我们模拟了常见浏览器的标识。
异常处理：网络请求可能失败，用try-except捕获异常可以防止程序崩溃。
HTML解析：BeautifulSoup的select方法支持CSS选择器，比find方法更直观。
相邻元素处理：HN的每条新闻实际上由两个<tr>组成，第二个包含元数据，所以需要用find_next_sibling定位。
数据清洗：有些新闻可能没有分数或评论，我们提供了默认值。

4. 进阶优化与最佳实践

4.1 遵守robots.txt规则

在开发任何爬虫前，检查目标网站的robots.txt是必须的步骤。访问https://news.ycombinator.com/robots.txt，我们可以看到HN的爬取规则：

code复制User-agent: *
Disallow: /x?
Disallow: /vote?
Disallow: /reply?
Disallow: /submitted?
Disallow: /submitlink?
Disallow: /threads?

这意味着：

可以爬取首页和新闻详情页
不能自动化投票、回复等交互操作
对/submitted?等用户页面的爬取被禁止

我们的爬虫只获取首页内容，完全符合这些规定。

4.2 请求频率控制

即使没有严格的反爬机制，我们也应该控制请求频率。建议：

在连续请求间添加延迟：

python复制time.sleep(3)  # 3秒间隔

如果需要定时抓取，可以考虑：

使用APScheduler设置定时任务
结合cron job（Linux/Mac）或任务计划程序（Windows）

避免高峰时段抓取，如下午2-4点（美国时间）

4.3 数据存储优化

除了CSV，我们还可以考虑其他存储方式：

SQLite数据库：

python复制import sqlite3

def save_to_sqlite(data, db_file='hn.db'):
    conn = sqlite3.connect(db_file)
    c = conn.cursor()
    
    c.execute('''CREATE TABLE IF NOT EXISTS stories
                 (title text, link text, score text, comments text, timestamp datetime DEFAULT CURRENT_TIMESTAMP)''')
    
    for story in data:
        c.execute("INSERT INTO stories (title, link, score, comments) VALUES (?, ?, ?, ?)",
                 (story['title'], story['link'], story['score'], story['comments']))
    
    conn.commit()
    conn.close()

追加模式写入CSV：

python复制df.to_csv('hn.csv', mode='a', header=not os.path.exists('hn.csv'), index=False)

JSON格式存储：

python复制import json

with open('hn.json', 'w') as f:
    json.dump(data, f, indent=2)

4.4 错误处理与重试机制

健壮的爬虫需要处理各种异常情况：

网络请求重试：

python复制from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

session = requests.Session()
retries = Retry(total=3, backoff_factor=1, status_forcelist=[502, 503, 504])
session.mount('http://', HTTPAdapter(max_retries=retries))
session.mount('https://', HTTPAdapter(max_retries=retries))

解析失败处理：

python复制try:
    # 解析代码
except AttributeError as e:
    print(f"解析错误: {e}, 跳过该项")
    continue

代理设置（如果需要）：

python复制proxies = {
    'http': 'http://proxy.example.com:8080',
    'https': 'http://proxy.example.com:8080',
}
response = requests.get(url, proxies=proxies)

5. 实际应用场景扩展

5.1 构建HN每日摘要

我们可以扩展爬虫，生成每日技术摘要邮件：

筛选高分(>100分)或高评论(>50条)的新闻
提取关键信息生成Markdown格式报告
使用SMTP或邮件API发送

python复制def generate_digest(stories, min_score=100, min_comments=50):
    filtered = [
        s for s in stories 
        if int(s['score'].split()[0]) > min_score 
        or int(s['comments'].split()[0]) > min_comments
    ]
    
    markdown = "# Hacker News Daily Digest\n\n"
    for story in filtered:
        markdown += f"## [{story['title']}]({story['link']})\n"
        markdown += f"- Score: {story['score']}\n"
        markdown += f"- Comments: {story['comments']}\n\n"
    
    return markdown

5.2 历史数据趋势分析

定期抓取数据并存储后，可以进行各种分析：

热门话题追踪：

python复制from collections import Counter

words = []
for story in stories:
    words.extend(story['title'].lower().split())
    
word_counts = Counter(words)
print(word_counts.most_common(10))

分数与评论数的关系：

python复制import matplotlib.pyplot as plt

scores = [int(s['score'].split()[0]) for s in stories]
comments = [int(s['comments'].split()[0]) for s in stories]

plt.scatter(scores, comments)
plt.xlabel('Score')
plt.ylabel('Comments')
plt.show()

5.3 与其它API集成

HN官方提供了Firebase API，可以结合使用：

python复制import requests

def fetch_top_stories():
    url = 'https://hacker-news.firebaseio.com/v0/topstories.json'
    response = requests.get(url)
    story_ids = response.json()[:30]  # 获取前30条
    
    stories = []
    for story_id in story_ids:
        story_url = f'https://hacker-news.firebaseio.com/v0/item/{story_id}.json'
        story_data = requests.get(story_url).json()
        stories.append({
            'title': story_data.get('title', ''),
            'link': story_data.get('url', ''),
            'score': f"{story_data.get('score', 0)} points",
            'comments': f"{story_data.get('descendants', 0)} comments"
        })
    
    return stories

这种方法更稳定，但会错过一些未进入topstories但有价值的内容。

6. 爬虫伦理与法律考量

虽然HN对爬虫相对开放，但我们仍需注意：

尊重版权：抓取的内容仅限个人使用，如需公开发布，应考虑只展示标题和链接，而非全文
数据最小化：只抓取需要的字段，避免不必要的数据收集
服务影响：确保爬虫不会对HN服务器造成显著负载
隐私保护：HN的某些页面可能包含用户信息，应避免抓取这些内容
商业用途：如需将抓取数据用于商业产品，建议先联系HN团队获取许可

在实际操作中，我建议：

设置明显的User-Agent标识你的爬虫
提供联系方式以便网站管理员必要时能联系到你
监控你的爬虫行为，确保不会意外触发反爬机制

7. 常见问题与解决方案

7.1 爬取结果为空

可能原因：

HTML结构变化：定期检查选择器是否仍然有效
IP被封：尝试降低频率或更换IP
JavaScript渲染：虽然HN不需要，但有些网站需要Selenium等工具

解决方案：

python复制# 添加调试信息
print(response.status_code)
print(response.text[:500])  # 查看部分HTML

7.2 编码问题

HN使用UTF-8，但其他网站可能不同：

python复制response.encoding = 'utf-8'  # 或根据response.headers中的Content-Type设置

7.3 处理相对链接

有些链接可能是相对路径：

python复制from urllib.parse import urljoin

full_url = urljoin('https://news.ycombinator.com/', relative_url)

7.4 性能优化

当需要抓取大量页面时：

使用aiohttp实现异步请求
考虑Scrapy框架
分布式抓取（但需谨慎控制总请求量）

一个简单的多线程示例：

python复制from concurrent.futures import ThreadPoolExecutor

def fetch_page(url):
    # 抓取逻辑
    return data

urls = [f'https://news.ycombinator.com/news?p={i}' for i in range(2, 6)]
with ThreadPoolExecutor(max_workers=3) as executor:
    results = list(executor.map(fetch_page, urls))

8. 项目完整代码与使用说明

以下是整合了所有优化措施的完整代码：

python复制import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
from urllib.parse import urljoin
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry
import sqlite3
import os

class HNCrawler:
    def __init__(self):
        self.session = requests.Session()
        retries = Retry(total=3, backoff_factor=1, 
                       status_forcelist=[502, 503, 504])
        self.session.mount('http://', HTTPAdapter(max_retries=retries))
        self.session.mount('https://', HTTPAdapter(max_retries=retries))
        
        self.headers = {
            'User-Agent': 'HNResearchBot/1.0 (+https://example.com/bot-info)'
        }
    
    def fetch_page(self, url):
        try:
            response = self.session.get(url, headers=self.headers)
            response.raise_for_status()
            return response.text
        except Exception as e:
            print(f"Error fetching {url}: {e}")
            return None
    
    def parse_front_page(self, html):
        if not html:
            return []
            
        soup = BeautifulSoup(html, 'html.parser')
        stories = []
        
        for item in soup.select('tr.athing'):
            title_elem = item.select_one('.titleline > a')
            if not title_elem:
                continue
                
            title = title_elem.text
            link = title_elem['href']
            if not link.startswith('http'):
                link = urljoin('https://news.ycombinator.com/', link)
            
            next_tr = item.find_next_sibling('tr')
            if not next_tr:
                continue
                
            score = next_tr.select_one('.score')
            score = score.text if score else '0 points'
            
            comments = next_tr.select('a[href^="item?id="]')
            comments = comments[-1].text if comments and 'comment' in comments[-1].text else '0 comments'
            
            stories.append({
                'title': title,
                'link': link,
                'score': score,
                'comments': comments,
                'timestamp': int(time.time())
            })
        
        return stories
    
    def save_to_sqlite(self, data, db_file='hn.db'):
        conn = sqlite3.connect(db_file)
        c = conn.cursor()
        
        c.execute('''CREATE TABLE IF NOT EXISTS stories
                     (title text, link text, score text, 
                      comments text, timestamp integer)''')
        
        for story in data:
            c.execute('''INSERT INTO stories 
                         (title, link, score, comments, timestamp)
                         VALUES (?, ?, ?, ?, ?)''',
                     (story['title'], story['link'], 
                      story['score'], story['comments'],
                      story['timestamp']))
        
        conn.commit()
        conn.close()
    
    def run(self):
        print(f"{time.ctime()} - Starting HN crawl...")
        html = self.fetch_page('https://news.ycombinator.com/')
        stories = self.parse_front_page(html)
        
        if stories:
            self.save_to_sqlite(stories)
            print(f"Saved {len(stories)} stories to database")
        
        time.sleep(10)  # 礼貌的抓取间隔

if __name__ == '__main__':
    crawler = HNCrawler()
    crawler.run()

使用说明：

安装依赖：pip install requests beautifulsoup4 pandas
直接运行脚本将抓取HN首页并保存到SQLite数据库
可以设置为定时任务（如每小时运行一次）
数据库会自动创建，后续运行会追加新数据

9. 项目扩展思路

这个基础爬虫可以进一步扩展：

详情页抓取：跟踪每条新闻的评论和详细内容
用户分析：研究高活跃度用户的提交模式
主题分类：使用NLP技术对新闻自动分类
情感分析：评估评论情绪与新闻分数的关系
趋势预测：基于早期数据预测哪些新闻会成为热门

例如，实现详情页抓取：

python复制def fetch_story_details(self, item_id):
    url = f'https://news.ycombinator.com/item?id={item_id}'
    html = self.fetch_page(url)
    if not html:
        return None
    
    soup = BeautifulSoup(html, 'html.parser')
    
    # 提取主贴内容
    main_post = soup.select_one('tr.athing .toptext')
    content = main_post.get_text('\n') if main_post else ''
    
    # 提取评论
    comments = []
    for comment in soup.select('tr.athing.comtr'):
        author = comment.select_one('.hnuser')
        author = author.text if author else 'anonymous'
        
        text = comment.select_one('.comment')
        text = text.get_text('\n') if text else ''
        
        comments.append({
            'author': author,
            'text': text
        })
    
    return {
        'content': content,
        'comments': comments
    }

在实际开发中，我发现几个值得注意的点：

HN的页面结构虽然稳定，但偶尔会有微调，所以选择器不能写得太死
直接抓取HTML比API更灵活，但解析成本更高
对于长期运行的爬虫，添加日志系统很有必要
数据库设计应考虑后续分析需求，比如添加索引提高查询效率