Python爬虫实战：音乐网站数据抓取与反爬策略

如云长翩

1. Python数据抓取实战：从零开始构建音乐网站爬虫

作为一名长期从事数据采集工作的开发者，我经常遇到需要从各类网站抓取结构化数据的场景。Python凭借其丰富的库生态和简洁语法，成为网络爬虫开发的首选工具。今天我将通过一个实际案例——抓取千千音乐网站歌单数据，手把手带你完成一个完整的爬虫项目。

这个项目特别适合以下几类读者：

需要完成毕业设计或课程作业的学生
想转型数据采集岗位的开发者
需要定期采集特定网站数据的分析师
对Python网络编程感兴趣的初学者

2. 项目环境与工具准备

2.1 开发环境配置

我推荐使用PyCharm作为开发环境，它提供了完善的Python项目管理和调试功能。以下是具体配置步骤：

创建新的Python项目：

bash复制mkdir music_spider && cd music_spider
python -m venv venv
source venv/bin/activate  # Linux/Mac
venv\Scripts\activate  # Windows

安装必备依赖库：

bash复制pip install requests beautifulsoup4 pandas

提示：建议固定依赖版本以避免兼容性问题，可使用pip freeze > requirements.txt生成依赖清单

2.2 项目目录结构

合理的目录结构能显著提升代码可维护性：

code复制/music_spider
├── /venv              # 虚拟环境
├── /data              # 存储爬取结果
├── utils.py           # 公共函数
├── spider.py          # 主爬虫脚本
└── requirements.txt   # 依赖清单

3. 网页分析与请求构造

3.1 目标网站分析

我们以千千音乐歌单页面(https://music.91q.com/songlist/309271)为例，使用Chrome开发者工具(F12)分析：

打开Network面板并刷新页面
筛选XHR请求，找到数据接口
观察请求头、参数和响应格式

关键发现：

数据通过AJAX接口获取
需要处理分页参数
存在sign签名验证的反爬机制

3.2 请求参数逆向

通过调试Source面板中的JavaScript代码，我们发现sign参数是通过以下方式生成的：

javascript复制function generateSign(params) {
    const secret = '8a6d8b7d2e9';  // 示例密钥，实际需要分析获取
    return md5(params.toString() + secret);
}

对应的Python实现：

python复制import hashlib

def generate_sign(params: dict, secret: str) -> str:
    param_str = '&'.join([f'{k}={v}' for k,v in sorted(params.items())])
    return hashlib.md5((param_str + secret).encode()).hexdigest()

4. 核心爬虫实现

4.1 基础请求函数

在utils.py中封装通用请求函数：

python复制import requests
from typing import Dict, Any

def make_request(url: str, params: Dict[str, Any], headers: Dict[str, str]) -> Dict:
    try:
        resp = requests.get(url, params=params, headers=headers, timeout=10)
        resp.raise_for_status()
        return resp.json()
    except requests.exceptions.RequestException as e:
        print(f"请求失败: {e}")
        return None

4.2 歌单爬取主逻辑

在spider.py中实现核心功能：

python复制import pandas as pd
from utils import make_request, generate_sign

class MusicSpider:
    BASE_URL = "https://music.91q.com/api/songlist"
    SECRET = "8a6d8b7d2e9"  # 示例密钥
    
    def __init__(self):
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)",
            "Referer": "https://music.91q.com"
        }
    
    def fetch_playlist(self, page: int, genre: str) -> list:
        params = {
            "page": page,
            "type": genre,
            "timestamp": int(time.time())
        }
        params["sign"] = generate_sign(params, self.SECRET)
        
        data = make_request(self.BASE_URL, params, self.headers)
        return data.get("list", [])

5. 数据存储与处理

5.1 CSV存储实现

使用pandas库高效存储数据：

python复制def save_to_csv(data: list, filename: str):
    df = pd.DataFrame(data)
    
    # 处理字段缺失情况
    df.fillna("", inplace=True)
    
    # 去重处理
    df.drop_duplicates(subset=["song_id"], inplace=True)
    
    df.to_csv(f"data/{filename}", index=False, encoding="utf_8_sig")

5.2 主程序流程

完整的数据采集流程：

python复制def main():
    spider = MusicSpider()
    genres = ["华语", "欧美", "日语"]
    all_data = []
    
    for genre in genres:
        for page in range(1, 6):  # 抓取前5页
            print(f"正在抓取 {genre} 第 {page} 页...")
            data = spider.fetch_playlist(page, genre)
            if data:
                all_data.extend(data)
            time.sleep(1)  # 礼貌性延迟
    
    save_to_csv(all_data, "playlists.csv")

6. 反爬策略与优化

6.1 常见反爬应对方案

User-Agent轮换：

python复制USER_AGENTS = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64)",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)",
    "Mozilla/5.0 (iPhone; CPU iPhone OS 15_0 like Mac OS X)"
]

def get_random_agent():
    return random.choice(USER_AGENTS)

IP代理池方案：

python复制PROXIES = [
    "http://proxy1.example.com:8080",
    "http://proxy2.example.com:8080"
]

def make_request_with_proxy(url, params):
    proxy = {"http": random.choice(PROXIES)}
    return requests.get(url, params=params, proxies=proxy)

6.2 性能优化技巧

异步请求加速：

python复制import aiohttp
import asyncio

async def fetch_async(url, session):
    async with session.get(url) as response:
        return await response.json()

async def main_async():
    async with aiohttp.ClientSession() as session:
        tasks = [fetch_async(url, session) for url in urls]
        return await asyncio.gather(*tasks)

增量采集方案：

python复制def load_existing_ids(filename):
    try:
        df = pd.read_csv(filename)
        return set(df["song_id"].tolist())
    except FileNotFoundError:
        return set()

def filter_new_items(items, existing_ids):
    return [item for item in items if item["song_id"] not in existing_ids]

7. 常见问题与解决方案

7.1 数据乱序问题

原始代码中出现的类别乱序问题，本质上是由于：

网络请求响应时间不一致
多线程/异步处理时的竞争条件

解决方案：

python复制# 方法1：添加请求时间戳字段
df["fetch_time"] = pd.to_datetime("now")
df.sort_values("fetch_time", inplace=True)

# 方法2：使用同步队列
from queue import Queue

task_queue = Queue()
result_queue = Queue()

def worker():
    while True:
        task = task_queue.get()
        result = process_task(task)
        result_queue.put((task["page"], task["genre"], result))
        task_queue.task_done()

7.2 其他典型问题

请求被拒绝(403)：

检查Headers完整性(特别是Referer和Cookies)
尝试降低请求频率
验证签名算法准确性

数据解析失败：

python复制# 健壮性处理示例
def safe_extract(data, keys, default=""):
    try:
        for key in keys.split("."):
            data = data[key]
        return data
    except (KeyError, TypeError):
        return default

存储性能瓶颈：

对于大数据量，考虑分块存储
使用数据库替代CSV
压缩存储结果

8. 项目扩展方向

这个基础爬虫可以进一步扩展为：

分布式爬虫系统：

使用Scrapy-Redis实现分布式
添加任务调度模块
实现故障转移机制

数据可视化展示：

python复制import matplotlib.pyplot as plt

def show_genre_distribution(df):
    df["genre"].value_counts().plot(kind="bar")
    plt.title("歌单类型分布")
    plt.show()