Python爬虫入门：音乐平台API数据抓取实战-代码聚汇网

Python爬虫入门：音乐平台API数据抓取实战

苏黎世贝勒爷

1. 项目概述与背景

最近在做一个音乐数据分析的小工具，需要从某音乐平台获取歌曲信息。经过抓包分析发现，他们的搜索接口没有复杂的加密逻辑，直接用Python的requests库就能搞定。这种无加密的API对于初学者来说是个不错的练手项目，既能学习网络请求的基本原理，又能实际获取到有用的数据。

我花了些时间逆向分析了这个接口的调用方式，整理出一套完整的请求方案。相比那些需要处理各种加密参数的平台，这个案例对新手友好很多，适合作为爬虫入门的第一课。下面就把完整的实现过程和注意事项分享给大家。

2. 环境准备与工具选择

2.1 基础环境配置

首先确保你的Python环境已经安装好requests库。如果没有安装，可以通过pip快速安装：

bash复制pip install requests

选择requests库的原因很简单：

它是Python中最流行的HTTP客户端库
API设计简洁直观，学习成本低
自动处理连接池和会话保持
内置JSON解析等实用功能

2.2 开发工具建议

推荐使用PyCharm或VS Code进行开发，它们都提供了优秀的Python支持：

代码自动补全
调试功能
虚拟环境管理
请求测试工具

如果你习惯用Jupyter Notebook做数据分析，也可以直接在notebook中运行这些代码，方便后续数据处理。

3. 接口分析与请求构造

3.1 抓包获取接口信息

使用Chrome开发者工具（F12）抓取搜索请求，可以看到关键的请求信息：

请求URL：https://music.example.com/api/search（示例域名）
请求方法：GET
必要参数：
- keyword：搜索关键词
- limit：返回结果数量
- offset：分页偏移量

3.2 请求头设置

正确的请求头能减少被服务器拒绝的概率。根据抓包结果，我们需要设置以下headers：

python复制headers = {
    "accept": "application/json",
    "accept-language": "zh-CN,zh;q=0.9",
    "cache-control": "no-cache",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "referer": "https://music.example.com/"
}

注意：User-Agent最好使用常见的浏览器标识，避免使用Python默认的UA，有些服务器会拦截非浏览器的请求。

4. 完整实现代码

4.1 基础搜索功能

python复制import requests

def search_music(keyword, limit=10, offset=0):
    url = "https://music.example.com/api/search"
    
    params = {
        "keyword": keyword,
        "limit": limit,
        "offset": offset
    }
    
    headers = {
        "accept": "application/json",
        "accept-language": "zh-CN,zh;q=0.9",
        "cache-control": "no-cache",
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    }
    
    try:
        response = requests.get(url, params=params, headers=headers)
        response.raise_for_status()  # 检查请求是否成功
        return response.json()  # 直接返回解析后的JSON数据
    except requests.exceptions.RequestException as e:
        print(f"请求失败: {e}")
        return None

4.2 结果解析与展示

搜索结果通常包含歌曲列表，每个歌曲对象可能有以下字段：

python复制{
    "id": "歌曲ID",
    "name": "歌曲名称",
    "artist": "歌手",
    "album": "专辑",
    "duration": "时长(ms)",
    "url": "播放地址"
}

我们可以写个简单的函数来美化输出：

python复制def print_search_results(results):
    if not results or "songs" not in results:
        print("未找到匹配的歌曲")
        return
    
    for i, song in enumerate(results["songs"], 1):
        print(f"{i}. {song['name']} - {song['artist']}")
        print(f"   专辑: {song['album']} | 时长: {int(song['duration'])/1000:.2f}秒")
        print("-" * 50)

5. 高级功能扩展

5.1 分页加载实现

当结果很多时，我们需要分页加载。修改search_music函数，增加分页参数：

python复制def search_music(keyword, limit=10, page=1):
    offset = (page - 1) * limit
    params = {
        "keyword": keyword,
        "limit": limit,
        "offset": offset
    }
    # 其余代码不变...

5.2 多线程批量搜索

如果需要批量搜索多个关键词，可以使用线程池提高效率：

python复制from concurrent.futures import ThreadPoolExecutor

def batch_search(keywords, max_workers=5):
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        results = list(executor.map(search_music, keywords))
    return results

6. 常见问题与解决方案

6.1 请求被拒绝

如果遇到403 Forbidden错误，可以尝试以下解决方案：

更换User-Agent
添加更多的请求头，如Referer
在请求之间增加随机延迟
使用代理IP（注意合规使用）

6.2 结果解析失败

可能的原因和解决方法：

问题现象	可能原因	解决方案
JSON解析错误	返回的不是JSON格式	检查响应内容，确认接口是否变更
字段缺失	接口返回结构变化	打印原始响应，更新解析逻辑
乱码	编码问题	设置response.encoding = 'utf-8'

6.3 性能优化技巧

使用会话(Session)对象复用连接：

python复制session = requests.Session()
response = session.get(url, headers=headers)

设置合理的超时时间：

python复制requests.get(url, timeout=(3.05, 27))

启用gzip压缩：

python复制headers["accept-encoding"] = "gzip, deflate"

7. 法律与道德注意事项

虽然这个接口没有加密，但在实际使用时仍需注意：

遵守网站的robots.txt规定
控制请求频率，避免对服务器造成压力
不要用于商业用途，除非获得授权
尊重版权，获取的数据仅用于个人学习

建议在代码中添加延迟，避免高频请求：

python复制import time
import random

time.sleep(random.uniform(0.5, 1.5))  # 随机延迟0.5-1.5秒

8. 完整示例代码

以下是整合了所有功能的完整实现：

python复制import requests
import time
import random
from concurrent.futures import ThreadPoolExecutor

class MusicSearcher:
    def __init__(self):
        self.session = requests.Session()
        self.base_url = "https://music.example.com/api/search"
        
        self.headers = {
            "accept": "application/json",
            "accept-language": "zh-CN,zh;q=0.9",
            "cache-control": "no-cache",
            "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
            "referer": "https://music.example.com/"
        }
    
    def search(self, keyword, limit=10, page=1):
        """搜索音乐
        
        Args:
            keyword (str): 搜索关键词
            limit (int): 每页结果数
            page (int): 页码
            
        Returns:
            dict: 搜索结果
        """
        time.sleep(random.uniform(0.5, 1.5))  # 礼貌性延迟
        
        params = {
            "keyword": keyword,
            "limit": limit,
            "offset": (page - 1) * limit
        }
        
        try:
            response = self.session.get(
                self.base_url,
                params=params,
                headers=self.headers,
                timeout=10
            )
            response.raise_for_status()
            return response.json()
        except requests.exceptions.RequestException as e:
            print(f"搜索失败: {e}")
            return None
    
    def batch_search(self, keywords, limit=5):
        """批量搜索多个关键词
        
        Args:
            keywords (list): 关键词列表
            limit (int): 每个关键词返回的结果数
            
        Returns:
            list: 搜索结果列表
        """
        with ThreadPoolExecutor(max_workers=5) as executor:
            results = list(executor.map(
                lambda k: self.search(k, limit=limit),
                keywords
            ))
        return results
    
    @staticmethod
    def print_results(results):
        """美化打印搜索结果"""
        if not results or "songs" not in results:
            print("未找到匹配的歌曲")
            return
        
        for i, song in enumerate(results["songs"], 1):
            print(f"{i}. {song['name']} - {song['artist']}")
            print(f"   专辑: {song['album']} | 时长: {int(song['duration'])/1000:.2f}秒")
            print("-" * 50)

# 使用示例
if __name__ == "__main__":
    searcher = MusicSearcher()
    results = searcher.search("周杰伦", limit=5)
    searcher.print_results(results)

9. 项目扩展思路

这个基础爬虫还可以进一步扩展：

数据存储：将结果保存到数据库或文件

python复制import json
with open("results.json", "w", encoding="utf-8") as f:
    json.dump(results, f, ensure_ascii=False, indent=2)

定时任务：监控特定歌手的新歌

python复制import schedule
def job():
    results = searcher.search("周杰伦")
    # 检查是否有新歌...
schedule.every(6).hours.do(job)

数据分析：统计歌曲时长分布、高频词汇等
可视化展示：用matplotlib或pyecharts生成图表

在实际项目中，我通常会先用这样的简单爬虫验证接口可用性，然后再考虑更复杂的实现。对于新手来说，建议先从这种无加密的接口开始练习，掌握基本的请求构造和数据处理技巧后，再挑战更复杂的案例。