Python爬虫入门：从零开始抓取网络图片-代码聚汇网

Python爬虫入门：从零开始抓取网络图片

propsX

1. Python爬虫入门：从零开始抓取网络图片

作为一个刚接触Python爬虫的新手，你可能听说过爬虫能自动获取网页数据，但具体怎么操作还是一头雾水。今天我就用最基础的图片爬取案例，带你一步步理解爬虫的工作原理和实现方法。这个案例虽然简单，但包含了爬虫最核心的几个要素：发送请求、解析数据、保存内容。

1.1 爬虫的基本原理

爬虫本质上是一个自动化的数据采集程序，它模拟人类浏览网页的行为，但速度更快、规模更大。就像你用浏览器打开网页查看图片一样，爬虫程序会：

向目标网站发送请求（相当于你在地址栏输入网址）
接收网站返回的数据（相当于浏览器显示网页内容）
从数据中提取需要的信息（相当于你找到网页上的图片）
保存提取的信息（相当于你右键保存图片）

不同的是，爬虫可以自动完成所有这些步骤，并且可以批量处理大量数据。在我们的案例中，爬虫会自动获取图片链接并下载保存，省去了手动一张张保存的麻烦。

1.2 准备工作与环境搭建

在开始写爬虫代码前，我们需要准备好Python环境和必要的库：

安装Python（建议3.6以上版本）
安装requests库（用于发送HTTP请求）
```
bash复制pip install requests
```
选择一个合适的开发工具，比如：
- PyCharm（功能全面）
- VS Code（轻量灵活）
- Jupyter Notebook（适合实验性代码）

提示：初学者建议使用Jupyter Notebook，可以分段执行代码，方便调试和理解。

2. 爬虫代码解析与实现

让我们仔细分析这个爬取图片的示例代码，理解每一部分的作用：

python复制import requests
import json

# 图片网站地址
res = requests.get("图片网址")

for i in res.json()["hero"]:
    res1 = requests.get("图片地址")
    
    # 存入文件
    with open(f"{i['name']}.jpg", "wb") as f:
        f.write(res1.content)
    print(f"{i['name']}保存成功")

2.1 导入必要的库

python复制import requests
import json

requests：Python中最流行的HTTP库，用于发送网络请求
json：Python内置库，用于处理JSON格式的数据

2.2 发送请求获取数据

python复制res = requests.get("图片网址")

这行代码向目标网站发送了一个GET请求，获取网站返回的数据。res是响应对象，包含服务器返回的所有信息。

2.3 解析JSON数据

python复制for i in res.json()["hero"]:

res.json()将响应内容解析为Python字典或列表。假设返回的数据结构类似：

json复制{
    "hero": [
        {"name": "图片1", "url": "http://example.com/1.jpg"},
        {"name": "图片2", "url": "http://example.com/2.jpg"}
    ]
}

我们通过["hero"]访问图片列表，然后遍历每个图片信息。

2.4 下载并保存图片

python复制res1 = requests.get("图片地址")
with open(f"{i['name']}.jpg", "wb") as f:
    f.write(res1.content)

对每张图片，再次发送GET请求获取图片数据
以二进制写入模式("wb")创建文件
将图片的二进制内容(res1.content)写入文件

2.5 完整示例代码

下面是一个更完整的示例，使用实际可用的测试API：

python复制import requests

# 使用测试API获取图片信息
api_url = "https://jsonplaceholder.typicode.com/photos"
res = requests.get(api_url)

# 只下载前5张图片作为演示
for i, photo in enumerate(res.json()[:5]):
    try:
        img_url = photo["url"]
        img_data = requests.get(img_url)
        
        # 保存图片
        with open(f"photo_{i+1}.jpg", "wb") as f:
            f.write(img_data.content)
        print(f"图片 {i+1} 保存成功")
    except Exception as e:
        print(f"下载图片 {i+1} 失败: {str(e)}")

3. 爬虫实战技巧与注意事项

3.1 如何找到API接口

在实际操作中，最难的部分往往是找到正确的API接口。以下是具体方法：

打开目标网站，按F12打开开发者工具
切换到"Network"(网络)选项卡
刷新页面，观察所有的网络请求
在"XHR"或"Fetch/XHR"分类下寻找返回JSON数据的请求
查看请求的URL和参数，这就是你要模拟的API

技巧：可以按文件类型过滤，选择"XHR"或"JSON"更容易找到API接口。

3.2 处理反爬机制

很多网站会有反爬虫措施，常见解决方法：

设置请求头，模拟浏览器访问：

python复制headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
res = requests.get(url, headers=headers)

添加延迟，避免请求过于频繁：

python复制import time
time.sleep(1)  # 暂停1秒

使用会话保持：

python复制session = requests.Session()
session.get(login_url)  # 先访问登录页
session.post(login_url, data=credentials)  # 登录
res = session.get(protected_url)  # 访问需要登录的页面

3.3 异常处理与日志记录

健壮的爬虫应该包含完善的错误处理：

python复制try:
    res = requests.get(url, timeout=10)
    res.raise_for_status()  # 检查请求是否成功
except requests.exceptions.RequestException as e:
    print(f"请求失败: {str(e)}")
    # 可以添加重试逻辑或记录日志

4. 爬虫进阶：更高效的数据处理

4.1 使用多线程加速下载

当需要下载大量图片时，可以使用多线程提高效率：

python复制from concurrent.futures import ThreadPoolExecutor

def download_image(photo):
    try:
        img_data = requests.get(photo["url"])
        with open(f"{photo['id']}.jpg", "wb") as f:
            f.write(img_data.content)
        return True
    except Exception as e:
        print(f"下载失败: {str(e)}")
        return False

# 使用线程池，最多同时5个下载
with ThreadPoolExecutor(max_workers=5) as executor:
    results = list(executor.map(download_image, res.json()[:20]))

4.2 存储到数据库

对于大量数据，可以考虑存入数据库：

python复制import sqlite3

# 创建SQLite数据库
conn = sqlite3.connect('images.db')
c = conn.cursor()
c.execute('''CREATE TABLE IF NOT EXISTS images
             (id INTEGER PRIMARY KEY, name TEXT, url TEXT, path TEXT)''')

# 下载并保存信息到数据库
for photo in res.json()[:10]:
    try:
        img_data = requests.get(photo["url"])
        filename = f"{photo['id']}.jpg"
        with open(filename, "wb") as f:
            f.write(img_data.content)
        
        # 插入数据库
        c.execute("INSERT INTO images VALUES (?, ?, ?, ?)",
                 (photo["id"], photo["title"], photo["url"], filename))
        conn.commit()
    except Exception as e:
        print(f"处理失败: {str(e)}")

conn.close()

4.3 使用更强大的解析工具

对于复杂网页，可以结合BeautifulSoup解析HTML：

python复制from bs4 import BeautifulSoup

html = requests.get("https://example.com").text
soup = BeautifulSoup(html, "html.parser")

# 查找所有图片标签
for img in soup.find_all("img"):
    img_url = img["src"]
    if not img_url.startswith("http"):
        img_url = f"https://example.com/{img_url}"
    
    # 下载图片...

5. 常见问题与解决方案

5.1 图片下载失败的可能原因

URL不正确：检查获取的图片URL是否完整，可能需要拼接基础URL
反爬机制：添加请求头，模拟浏览器访问
SSL证书问题：添加verify=False参数（仅用于测试）
权限不足：检查是否有登录要求，或者需要cookies

5.2 性能优化建议

缓存已下载内容：避免重复下载相同资源
限制并发数：避免被封IP
使用连接池：重用HTTP连接，提高效率
增量爬取：记录最后爬取位置，下次从该位置继续

5.3 法律与道德注意事项

尊重robots.txt：检查目标网站的爬虫政策
限制爬取频率：避免对目标网站造成负担
不爬取敏感数据：如个人信息、受版权保护内容
商业用途需谨慎：可能需要获得授权

在实际项目中，我通常会先小规模测试爬取，确认没问题后再扩大规模。遇到问题时，查看服务器返回的状态码和错误信息是最直接的排查方法。记住，一个负责任的爬虫开发者应该像访客一样尊重网站资源。