使用Selenium爬取空气质量数据的实战指南

Cookie Young

1. 项目概述

最近在做一个空气质量分析的小项目，需要获取历史数据。调研发现aqistudy.cn这个网站的数据比较全面，但直接抓取接口会遇到加密参数的问题。经过一番折腾，最终选择了用Selenium模拟浏览器操作的方式来获取数据，效果很不错。

这种方法的核心思路是：让浏览器自己执行JS渲染页面，我们只需要等页面加载完成后"抄"数据就行。相比直接破解加密接口，这种方式更稳定可靠，特别适合像我这样不擅长逆向工程的同学。

2. 环境准备

2.1 安装Selenium库

首先需要安装Python的Selenium库：

bash复制pip install selenium

建议使用虚拟环境来管理依赖，避免污染全局环境。我习惯用venv：

bash复制python -m venv env
source env/bin/activate  # Linux/Mac
env\Scripts\activate  # Windows

2.2 浏览器驱动配置

Selenium需要浏览器驱动才能工作。以Chrome为例：

先查看你的Chrome版本：浏览器地址栏输入chrome://version/
到ChromeDriver官网下载对应版本的驱动
将chromedriver.exe放在以下任一位置：
- Python脚本所在目录
- 系统PATH路径（如/usr/local/bin/）

注意：Chrome和ChromeDriver的版本必须严格匹配，否则会报错。建议使用稳定版而非测试版。

3. 核心实现步骤

3.1 初始化浏览器实例

python复制from selenium import webdriver
from selenium.webdriver.chrome.options import Options

def init_browser(headless=True):
    options = Options()
    if headless:
        options.add_argument('--headless')  # 无头模式
    options.add_argument('--disable-gpu')
    options.add_argument('--no-sandbox')
    driver = webdriver.Chrome(options=options)
    return driver

这里有几个实用技巧：

无头模式(headless)适合服务器环境，不显示GUI
--disable-gpu可以避免一些渲染问题
--no-sandbox在Linux服务器上可能需要

3.2 页面操作流程

完整的抓取流程如下：

python复制def fetch_aqi_data(city, month, driver):
    # 1. 打开目标页面
    driver.get('https://www.aqistudy.cn/historydata/daydata.php')
    
    # 2. 选择城市
    city_select = driver.find_element(By.ID, 'city')
    Select(city_select).select_by_visible_text(city)
    
    # 3. 选择月份
    month_select = driver.find_element(By.ID, 'month')
    Select(month_select).select_by_visible_text(month)
    
    # 4. 点击查询
    query_btn = driver.find_element(By.ID, 'query')
    query_btn.click()
    
    # 5. 等待数据加载
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CLASS_NAME, 'table'))
    )
    
    # 6. 解析表格数据
    table = driver.find_element(By.CLASS_NAME, 'table')
    rows = table.find_elements(By.TAG_NAME, 'tr')
    data = []
    for row in rows[1:]:  # 跳过表头
        cols = row.find_elements(By.TAG_NAME, 'td')
        data.append({
            'date': cols[0].text,
            'aqi': cols[1].text,
            'pm25': cols[3].text,
            # 其他字段...
        })
    return data

3.3 数据存储

获取到数据后，建议保存为CSV格式：

python复制import csv

def save_to_csv(data, filename):
    with open(filename, 'w', newline='', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=data[0].keys())
        writer.writeheader()
        writer.writerows(data)

4. 实战技巧与避坑指南

4.1 元素定位策略

Selenium提供了多种元素定位方式，各有优劣：

定位方式	示例	适用场景	稳定性
ID定位	`find_element(By.ID, 'query')`	唯一元素	★★★★★
CSS选择器	`find_element(By.CSS_SELECTOR, '.table tr')`	复杂选择	★★★★
XPath	`find_element(By.XPATH, '//table[@class="table"]')`	灵活定位	★★★
类名	`find_element(By.CLASS_NAME, 'table')`	简单选择	★★★★

经验：优先使用ID定位，其次是CSS选择器。XPath虽然强大但容易受页面结构调整影响。

4.2 等待机制

页面加载需要时间，必须使用显式等待：

python复制from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待最多10秒，直到表格出现
WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.CLASS_NAME, 'table'))
)

常见的等待条件：

presence_of_element_located：元素出现在DOM中
visibility_of_element_located：元素可见
element_to_be_clickable：元素可点击

4.3 反爬应对策略

网站可能有反爬机制，可以尝试以下方法：

随机延迟：time.sleep(random.uniform(1, 3))

修改User-Agent：

python复制options.add_argument('user-agent=Mozilla/5.0...')

使用代理IP（注意合规性）

禁用图片加载提升速度：

python复制options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})

5. 完整代码示例

python复制from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait, Select
from selenium.webdriver.support import expected_conditions as EC
import csv
import time

def get_aqi_data(cities, months, output_file):
    driver = init_browser()
    all_data = []
    
    try:
        for city in cities:
            for month in months:
                print(f"正在获取 {city} {month} 的数据...")
                data = fetch_aqi_data(city, month, driver)
                all_data.extend(data)
                time.sleep(2)  # 礼貌性延迟
                
        save_to_csv(all_data, output_file)
    finally:
        driver.quit()

if __name__ == '__main__':
    cities = ['北京', '上海', '广州']
    months = ['2023-01', '2023-02', '2023-03']
    get_aqi_data(cities, months, 'aqi_data.csv')

6. 常见问题解决

6.1 ChromeDriver版本不匹配

错误信息：

code复制SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version...

解决方案：

检查Chrome版本
下载对应版本的ChromeDriver

或者使用webdriver-manager自动管理驱动版本：

python复制from webdriver_manager.chrome import ChromeDriverManager
driver = webdriver.Chrome(ChromeDriverManager().install())

6.2 元素找不到

可能原因：

页面还未加载完成 - 增加等待时间

元素在iframe中 - 需要先切换iframe：

python复制driver.switch_to.frame('iframe_id')

元素被遮挡 - 使用JavaScript点击：

python复制driver.execute_script("arguments[0].click();", element)

6.3 浏览器崩溃

解决方法：

增加异常处理
使用try-finally确保浏览器退出

设置内存限制：

python复制options.add_argument('--disable-dev-shm-usage')

7. 项目扩展思路

定时任务：用APScheduler设置定时抓取
数据可视化：用Matplotlib/PyEcharts绘制趋势图
数据库存储：改用MySQL/MongoDB存储数据
异常监控：添加邮件报警功能
分布式扩展：结合Scrapy-Redis实现分布式爬取

我在实际项目中发现，这种方法的稳定性比直接调用API要高很多。虽然速度稍慢，但对于学术研究和小规模数据分析完全够用。

已经到底了哦

精选内容

1 R语言与AI结合提升生态环境数据分析效率 2 CUDA版本迷雾：从nvcc与nvidia-smi的差异看开发与运行环境的分离 3 SpringDoc与Swagger：API文档化最佳实践解析 4 Simulink报错排查与系统化调试方法 5 Containerd 核心组件解析与生产环境部署指南 6 解决VS Code终端无法执行Hexo命令的完整指南 7 三、音频隐写实战：从工具解析到CTF竞赛应用 8 SpringBoot2+Vue3家政服务平台开发实战 9 Python Django项目手动部署全流程详解 10 微信小程序表单实战：picker selector 数据绑定与提交的完整指南

本文介绍如何利用Nuitka编译器和Inno Setup工具为PyQt5应用打造轻量级分发方案，替代传统的PyInstaller打包方式。通过实测对比，Nuitka能将应用体积减半至50MB左右，同时显著提升启动速度至1.8秒，并增强代码安全性。文章详细解析了环境配置、核心参数优化及安装包制作技巧，帮助开发者实现高效、专业的应用分发。

Silvaco TonyPlot数据可视化全攻略：不只是看图，更要读懂器件背后的故事

本文深入解析Silvaco TonyPlot在半导体器件仿真中的数据可视化应用，从基础操作到高级分析技巧，涵盖电学参数提取、掺杂分布可视化及论文级图表制作。通过实战案例和优化建议，帮助用户充分利用TonyPlot的强大功能，提升器件分析的效率与深度。

从零部署Azure DevOps Server：一站式环境搭建与避坑指南

本文详细介绍了从零部署Azure DevOps Server的全过程，包括环境准备、软件安装、部署调优及验证排错。重点解析了SQL Server安装陷阱、Visual Studio精简安装技巧，以及端口配置等关键步骤，帮助开发者高效搭建稳定的一站式DevOps环境，避免常见坑点。

企业级ETL系统架构设计与Kettle实践指南

ETL（Extract-Transform-Load）是数据仓库建设中的核心技术，负责数据的抽取、转换和加载。其核心原理是通过分层架构实现数据的高效流动，包括数据接入层、缓冲存储层、数据处理层、数据服务层和调度监控层。在工程实践中，Kettle作为开源ETL工具被广泛应用，支持从多种数据源抽取数据，并通过可视化界面设计复杂的转换逻辑。企业级ETL系统的技术价值在于确保数据质量、提高处理效率并支持实时数据分析。典型应用场景包括校园卡系统、教务系统等业务系统的数据整合。本文详细解析了基于Kettle的ETL系统架构设计，涵盖资源库配置、作业设计模式、转换组件最佳实践等关键实施细节，并提供了生产环境运维方案和性能优化经验。

LabVIEW多工位并行测试框架开发实践

并行测试技术是自动化测试领域的核心方法，通过多任务同步执行显著提升产线效率。其原理基于计算机并行处理架构，利用多线程/多进程机制实现资源复用。在工业测试场景中，LabVIEW因其图形化编程和硬件集成优势成为主流开发平台。本文详解基于LabVIEW的多工位测试框架，包含任务调度算法、参数管理系统等关键技术模块，特别适合电子产品功能测试与汽车零部件检测场景。该开源框架支持动态工位调整和可视化序列编辑，实测可使测试效率提升300%+，已成功应用于智能手表生产线等实际项目。

Java 8如何通过Solon-AI框架接入MCP协议开发AI应用

MCP协议(Model Context Protocol)作为AI领域的新型交互标准，解决了大模型与外部工具的标准化对接问题。其核心原理是通过定义统一的接口规范，实现不同AI系统间的互操作性。在Java生态中，传统RPC框架难以满足AI场景下的动态工具发现和流式处理需求。Solon-AI框架创新性地通过注解驱动开发模式，使Java 8/11项目无需升级JDK版本即可接入MCP生态。该技术特别适用于企业级AI应用开发，支持STDIO、STREAMABLE等多种通信通道，可广泛应用于金融数据分析、智能运维等场景，实现Java与Python生态的高效协同。

重复文件查找工具的技术原理与工程实践

文件指纹技术是数据去重的核心方法，通过哈希算法生成唯一标识实现高效比对。MD5/SHA-1等加密哈希可确保100%准确性，而抽样哈希策略则能平衡性能与精度。在存储优化领域，该技术可有效解决磁盘空间浪费问题，特别适合多媒体资料库、代码仓库等场景。现代实现方案通常结合Bloom Filter和LRU缓存进行内存优化，配合异步IO提升扫描效率。本文展示的混合哈希策略和硬链接技术，已在百万级文件处理中验证了其工程价值。

告别繁琐命令！用Ansible自动化部署CentOS8上的Oracle 19.3.0数据库

本文详细介绍了如何使用Ansible自动化工具在CentOS8系统上部署Oracle 19.3.0数据库，大幅简化传统繁琐的手动安装流程。通过Playbook实现从系统配置、依赖安装到数据库创建的全流程自动化，确保部署效率提升至30分钟内完成，同时保障环境一致性。特别适合企业级批量部署和测试环境快速重建场景。

教育信息化平台Word粘贴样式错乱解决方案

在Web内容管理系统(CMS)开发中，处理Office文档粘贴是常见的技术挑战。浏览器剪贴板机制会保留Word文档的HTML结构、内联样式和元数据，但不同浏览器解析策略存在差异。富文本编辑器通过过滤机制防范XSS攻击，但过度过滤会导致样式丢失。通过分析UEditor等开源编辑器的工作原理，发现合理配置过滤规则和集成mammoth.js等解析库，可以在保证安全性的同时完美保留Word样式。这种方案特别适合教育信息化平台中的课件上传、在线文档编辑等场景，实测显示能处理10MB以上文档并保留85%以上原始格式。

Nginx高性能Web服务器部署与优化指南

Web服务器是互联网架构的核心组件，其性能直接影响用户体验。Nginx作为高性能的HTTP和反向代理服务器，采用事件驱动的异步架构，相比传统服务器能更高效地处理高并发请求。通过模块化设计和灵活的配置，Nginx可以实现负载均衡、缓存加速等关键功能，特别适合电商、社交等需要处理突发流量的场景。本文以CentOS环境为例，详细介绍从源码编译安装到系统调优的全过程，包括关键模块选择、性能参数优化以及安全加固措施，帮助开发者构建高性能的Web服务基础设施。