使用Selenium爬取空气质量数据的实战指南

Cookie Young

1. 项目概述

最近在做一个空气质量分析的小项目,需要获取历史数据。调研发现aqistudy.cn这个网站的数据比较全面,但直接抓取接口会遇到加密参数的问题。经过一番折腾,最终选择了用Selenium模拟浏览器操作的方式来获取数据,效果很不错。

这种方法的核心思路是:让浏览器自己执行JS渲染页面,我们只需要等页面加载完成后"抄"数据就行。相比直接破解加密接口,这种方式更稳定可靠,特别适合像我这样不擅长逆向工程的同学。

2. 环境准备

2.1 安装Selenium库

首先需要安装Python的Selenium库:

bash复制pip install selenium

建议使用虚拟环境来管理依赖,避免污染全局环境。我习惯用venv:

bash复制python -m venv env
source env/bin/activate  # Linux/Mac
env\Scripts\activate  # Windows

2.2 浏览器驱动配置

Selenium需要浏览器驱动才能工作。以Chrome为例:

  1. 先查看你的Chrome版本:浏览器地址栏输入chrome://version/
  2. ChromeDriver官网下载对应版本的驱动
  3. 将chromedriver.exe放在以下任一位置:
    • Python脚本所在目录
    • 系统PATH路径(如/usr/local/bin/)

注意:Chrome和ChromeDriver的版本必须严格匹配,否则会报错。建议使用稳定版而非测试版。

3. 核心实现步骤

3.1 初始化浏览器实例

python复制from selenium import webdriver
from selenium.webdriver.chrome.options import Options

def init_browser(headless=True):
    options = Options()
    if headless:
        options.add_argument('--headless')  # 无头模式
    options.add_argument('--disable-gpu')
    options.add_argument('--no-sandbox')
    driver = webdriver.Chrome(options=options)
    return driver

这里有几个实用技巧:

  • 无头模式(headless)适合服务器环境,不显示GUI
  • --disable-gpu可以避免一些渲染问题
  • --no-sandbox在Linux服务器上可能需要

3.2 页面操作流程

完整的抓取流程如下:

python复制def fetch_aqi_data(city, month, driver):
    # 1. 打开目标页面
    driver.get('https://www.aqistudy.cn/historydata/daydata.php')
    
    # 2. 选择城市
    city_select = driver.find_element(By.ID, 'city')
    Select(city_select).select_by_visible_text(city)
    
    # 3. 选择月份
    month_select = driver.find_element(By.ID, 'month')
    Select(month_select).select_by_visible_text(month)
    
    # 4. 点击查询
    query_btn = driver.find_element(By.ID, 'query')
    query_btn.click()
    
    # 5. 等待数据加载
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CLASS_NAME, 'table'))
    )
    
    # 6. 解析表格数据
    table = driver.find_element(By.CLASS_NAME, 'table')
    rows = table.find_elements(By.TAG_NAME, 'tr')
    data = []
    for row in rows[1:]:  # 跳过表头
        cols = row.find_elements(By.TAG_NAME, 'td')
        data.append({
            'date': cols[0].text,
            'aqi': cols[1].text,
            'pm25': cols[3].text,
            # 其他字段...
        })
    return data

3.3 数据存储

获取到数据后,建议保存为CSV格式:

python复制import csv

def save_to_csv(data, filename):
    with open(filename, 'w', newline='', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=data[0].keys())
        writer.writeheader()
        writer.writerows(data)

4. 实战技巧与避坑指南

4.1 元素定位策略

Selenium提供了多种元素定位方式,各有优劣:

定位方式 示例 适用场景 稳定性
ID定位 find_element(By.ID, 'query') 唯一元素 ★★★★★
CSS选择器 find_element(By.CSS_SELECTOR, '.table tr') 复杂选择 ★★★★
XPath find_element(By.XPATH, '//table[@class="table"]') 灵活定位 ★★★
类名 find_element(By.CLASS_NAME, 'table') 简单选择 ★★★★

经验:优先使用ID定位,其次是CSS选择器。XPath虽然强大但容易受页面结构调整影响。

4.2 等待机制

页面加载需要时间,必须使用显式等待:

python复制from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待最多10秒,直到表格出现
WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.CLASS_NAME, 'table'))
)

常见的等待条件:

  • presence_of_element_located:元素出现在DOM中
  • visibility_of_element_located:元素可见
  • element_to_be_clickable:元素可点击

4.3 反爬应对策略

网站可能有反爬机制,可以尝试以下方法:

  1. 随机延迟:time.sleep(random.uniform(1, 3))
  2. 修改User-Agent:
    python复制options.add_argument('user-agent=Mozilla/5.0...')
    
  3. 使用代理IP(注意合规性)
  4. 禁用图片加载提升速度:
    python复制options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})
    

5. 完整代码示例

python复制from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait, Select
from selenium.webdriver.support import expected_conditions as EC
import csv
import time

def get_aqi_data(cities, months, output_file):
    driver = init_browser()
    all_data = []
    
    try:
        for city in cities:
            for month in months:
                print(f"正在获取 {city} {month} 的数据...")
                data = fetch_aqi_data(city, month, driver)
                all_data.extend(data)
                time.sleep(2)  # 礼貌性延迟
                
        save_to_csv(all_data, output_file)
    finally:
        driver.quit()

if __name__ == '__main__':
    cities = ['北京', '上海', '广州']
    months = ['2023-01', '2023-02', '2023-03']
    get_aqi_data(cities, months, 'aqi_data.csv')

6. 常见问题解决

6.1 ChromeDriver版本不匹配

错误信息:

code复制SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version...

解决方案:

  1. 检查Chrome版本
  2. 下载对应版本的ChromeDriver
  3. 或者使用webdriver-manager自动管理驱动版本:
    python复制from webdriver_manager.chrome import ChromeDriverManager
    driver = webdriver.Chrome(ChromeDriverManager().install())
    

6.2 元素找不到

可能原因:

  1. 页面还未加载完成 - 增加等待时间
  2. 元素在iframe中 - 需要先切换iframe:
    python复制driver.switch_to.frame('iframe_id')
    
  3. 元素被遮挡 - 使用JavaScript点击:
    python复制driver.execute_script("arguments[0].click();", element)
    

6.3 浏览器崩溃

解决方法:

  1. 增加异常处理
  2. 使用try-finally确保浏览器退出
  3. 设置内存限制:
    python复制options.add_argument('--disable-dev-shm-usage')
    

7. 项目扩展思路

  1. 定时任务:用APScheduler设置定时抓取
  2. 数据可视化:用Matplotlib/PyEcharts绘制趋势图
  3. 数据库存储:改用MySQL/MongoDB存储数据
  4. 异常监控:添加邮件报警功能
  5. 分布式扩展:结合Scrapy-Redis实现分布式爬取

我在实际项目中发现,这种方法的稳定性比直接调用API要高很多。虽然速度稍慢,但对于学术研究和小规模数据分析完全够用。

内容推荐

大数据Cube预计算:原理、策略与优化实践
在数据分析领域,Cube预计算是一种以空间换时间的关键技术,通过预先计算并存储多维度的聚合结果,显著提升查询性能。其核心技术原理包括维度建模、聚合计算和存储优化,能够将复杂查询从分钟级降至秒级响应。在工程实践中,全量预计算、部分预计算和增量更新等策略需要根据维度数量和查询模式灵活选择。结合MapReduce、Spark等分布式计算框架,以及Parquet/ORC等列式存储技术,可有效应对TB级数据的处理需求。该技术广泛应用于电商分析、零售报表等OLAP场景,其中Apache Kylin是典型实现方案。通过合理的聚合组设计和分层存储策略,能在存储成本与查询性能间取得平衡,解决维度爆炸等典型问题。
电赛实战:基于UCC28019的同步Boost PFC电路设计与调测
本文详细介绍了基于UCC28019的同步Boost PFC电路设计与调测实战经验。通过对比异步与同步方案的效率差异,解析了UCC28019在电赛中的优势,包括全负载范围高效、简化设计、智能保护和参数灵活。文章还提供了关键参数计算、原理图设计、PCB布局和调试避坑指南,帮助参赛者在电赛中实现高能效评分。
深入解析JVM核心原理与性能优化实践
Java虚拟机(JVM)作为现代软件开发的核心组件,通过字节码和即时编译(JIT)技术实现了跨平台与高性能的完美平衡。其架构设计包含类加载子系统、运行时数据区和垃圾收集机制等关键模块,每个模块都体现了计算机科学中的经典设计思想。在并发编程领域,Java内存模型(JMM)通过happens-before规则和内存屏障解决了可见性、原子性和有序性问题。对于开发者而言,掌握JVM调优工具如VisualVM、MAT以及理解GC日志分析是提升应用性能的关键。随着GraalVM和Project Loom等新技术的发展,JVM正在向更低延迟、更高并发的方向演进,为云原生和微服务架构提供更强支撑。
PaddleOCR实战:从数据标注到模型部署的全流程指南
本文详细介绍了PaddleOCR从数据标注到模型部署的全流程实战指南,包括环境配置、数据标注工具PPOCRLabel的使用、模型训练与调优技巧,以及模型导出与推理性能优化方法。通过具体案例和配置示例,帮助开发者高效实现文字识别模型的训练与部署,提升OCR项目的开发效率。
uniapp中使用pdf.js实现H5端PDF预览功能
PDF预览是Web开发中的常见需求,涉及文档管理、在线教育等多个场景。传统方案如浏览器内置查看器存在兼容性问题,iframe嵌入则可能带来安全隐患。pdf.js作为Mozilla开发的开源JavaScript库,提供了不依赖插件的跨平台PDF渲染能力,支持文本选择、缩放等丰富功能,且具有高度可定制性。在uniapp框架下集成pdf.js,能够实现稳定可靠的H5端PDF预览,特别适合需要自定义界面和功能的中大型项目。通过配置web-view组件和合理处理跨域问题,开发者可以构建高性能的PDF预览解决方案,满足企业文档管理系统等复杂应用场景的需求。
微信小程序日程管理开发实战与技术解析
日程管理作为时间管理的核心技术工具,其核心原理是通过结构化数据存储与智能提醒实现事务规划。现代技术架构中,微信小程序凭借其免安装、跨平台特性,结合SSM框架(Spring+SpringMVC+MyBatis)的后端稳定性,成为轻量化应用开发的首选方案。在工程实践层面,需要重点解决多端数据同步、高性能查询优化等典型问题,例如通过复合索引提升日程查询效率,采用增量同步策略降低流量消耗。这类技术方案特别适合需要快速迭代的移动办公场景,如文中实现的智能日程分类和团队共享功能,既解决了传统日历应用场景细分不足的痛点,又通过微信生态实现了零成本推广。开发过程中涉及的MyBatis防注入措施和接口限流方案,也为同类应用提供了可靠的安全实践参考。
模p环境下行列式的高效计算与高斯消元优化
行列式作为线性代数的核心概念,在计算机科学和工程计算中具有重要应用。其本质是描述线性变换的缩放因子,通过高斯消元法可转化为上三角矩阵的对角线乘积。在模运算环境下,传统浮点运算被整数运算替代,结合欧几里得算法实现模逆元转换,有效解决了大数溢出和精度问题。这种技术特别适用于密码学、竞赛编程等需要精确模运算的场景。通过优化输入输出处理、缓存访问模式和并行计算,算法在保持O(n³)时间复杂度的同时显著提升实际性能。典型实现涉及快速IO、模数处理和行列式符号维护等关键技术点。
【3DGS】从实时渲染突破到3D_Gaussian_Splatting
本文深入解析3D Gaussian Splatting(3DGS)技术如何实现实时渲染的革命性突破,对比NeRF在性能上的显著优势。通过详细的技术解剖和实战性能对比,展示3DGS在计算机视觉和新视角合成领域的应用潜力,为工业级落地提供实用指南。
医疗影像诊断中的‘救命’少数类:实战加权损失函数,提升模型对罕见病的检出率
本文探讨了医疗影像诊断中数据不平衡问题的解决方案,重点介绍了加权损失函数在提升罕见病检出率中的应用。通过PyTorch实战案例,展示了如何调整梯度信号以增强模型对关键类别的敏感度,并结合临床代价矩阵量化误诊影响。文章还涵盖了动态权重策略、Focal Loss融合等高级技术,为构建更可靠的AI辅助诊断系统提供实用指导。
JRC全球地表水数据集(GSW)在GEE中的实战应用
遥感水体监测是环境变化研究的重要技术手段,其核心原理是通过卫星传感器获取地表反射率数据,利用水体的光谱特征进行像元级分类。JRC全球地表水数据集(GSW)作为权威的长期水体监测产品,整合了Landsat系列卫星30余年数据,采用专家系统实现了永久性水体与季节性水体的精细区分。在工程实践中,通过Google Earth Engine(GEE)平台可以高效处理这些海量遥感数据,实现从数据筛选、可视化验证到批量导出的全流程操作。该技术在水资源管理、洪涝监测、湿地保护等场景具有重要应用价值,特别是结合夜间灯光数据、降水数据等多源信息时,能够深入分析人类活动与自然因素对水体变化的影响机制。
Undertow架构解析与性能调优实战
本文深入解析Undertow架构设计及其性能调优实战,涵盖线程池配置、缓冲区优化、高并发场景处理等关键技巧。通过实际案例展示如何提升API服务和WebSocket性能,并提供常见问题排查指南与监控方案,帮助开发者充分发挥Undertow的高性能优势。
从ib_logfile到#innodb_redo文件夹:详解MySQL 8.0 Redo Log的存储架构变化与运维影响
本文深入解析MySQL 8.0中Redo Log从ib_logfile到#innodb_redo文件夹的架构变革,重点介绍innodb_redo_log_capacity参数如何实现动态空间管理,并提供容量规划、运维监控及备份恢复的实践指南,帮助DBA高效应对新架构下的性能调优与故障处理挑战。
QT在Windows下用HIDAPI读写USB设备,保姆级避坑指南(含Bus Hound调试)
本文详细介绍了在Windows平台下使用QT和HIDAPI进行USB设备读写的完整流程,包括环境配置、设备枚举、数据读写实战以及Bus Hound调试技巧。文章提供了保姆级的避坑指南,帮助开发者解决USB通信中的常见问题,提升开发效率。
从‘模拟器’与‘挑战者’的对话,看懂安全归约如何为你的加密算法‘上保险’
本文通过侦探故事的比喻,深入浅出地解析了安全归约在加密算法中的核心作用。文章详细介绍了挑战者、模拟器和敌手三大角色,以及如何通过安全归约为加密系统提供理论保障,帮助读者理解密码学安全证明的逻辑框架和实践智慧。
SpringBoot项目里用Activiti 7.1.0.M6搞个请假审批,从画图到跑通全流程保姆级教程
本文详细介绍了如何在SpringBoot项目中集成Activiti 7.1.0.M6工作流引擎,实现请假审批全流程。从环境配置、BPMN流程图设计到核心API开发,提供保姆级教程,帮助开发者快速掌握工作流引擎的集成与应用,提升企业OA系统的灵活性和效率。
C++模板编程:从基础概念到工程实践
模板是C++泛型编程的核心机制,通过将数据类型参数化实现代码复用。其工作原理类似于模具制造,在编译期通过类型推导和实例化生成具体代码。模板技术解决了传统编程中的代码冗余问题,在STL标准库中展现出强大的工程价值,广泛应用于容器、算法等场景。现代C++进一步扩展了模板能力,包括可变参数模板、概念约束等特性,同时需要注意二进制兼容性等实践问题。掌握模板元编程技巧可以显著提升代码性能,而CRTP等设计模式则展现了模板在架构设计中的灵活性。
怀化周末游攻略:本地人私藏的必玩景点
怀化作为湘西的重要城市,拥有丰富的自然风光和人文景观。从沅江边的天问岛夜景到保存完好的洪江古商城,再到承载历史记忆的芷江受降纪念馆,怀化的旅游资源多元且独特。通过怀化信息汇小程序的'周末去哪'功能,游客可以便捷地获取景点信息、规划行程,甚至找到志同道合的玩伴。该小程序不仅提供详细的景点介绍和实用攻略,还能根据实时天气和游客兴趣推荐个性化游玩方案。无论是喜欢自然风光的户外爱好者,还是钟情于人文古迹的文化探索者,都能在怀化找到适合自己的周末休闲方式。
Pandas.DataFrame.quantile() 实战:从参数解析到避坑指南,附可运行数据集
本文详细解析了Pandas.DataFrame.quantile()方法在分位数计算中的核心参数与实战技巧,包括q参数、axis参数、numeric_only参数的正确使用,以及分位数插值方法的深度对比。通过电商数据分析等实际业务场景,提供了避坑指南和性能优化建议,帮助开发者高效利用quantile()进行数据分析。
告别AT指令手敲!用STM32F103C8T6+ESP-01S玩转MQTT,我封装了一个超好用的C语言库
本文介绍了如何利用STM32F103C8T6和ESP-01S实现高效的MQTT通信,通过封装AT指令为模块化的C语言库,显著提升开发效率和代码可靠性。文章详细讲解了库的分层架构设计、核心实现技巧及高级功能,如智能配网和低功耗优化,帮助开发者快速构建物联网应用。
别再只调batch_size了!深入PyTorch显存分配器:手把手教你用max_split_size_mb环境变量根治CUDA OOM
本文深入解析PyTorch显存分配器中的max_split_size_mb参数,揭示其如何有效解决CUDA OOM问题。通过实验数据和实战案例,指导开发者科学设置PYTORCH_CUDA_ALLOC_CONF环境变量,优化显存利用率,避免盲目调整batch_size。文章还提供高级诊断工具和组合优化策略,帮助提升模型训练效率。
已经到底了哦
精选内容
热门内容
最新内容
告别PyInstaller臃肿!用Nuitka+Inno Setup给PyQt5程序瘦身(实测体积减半)
本文介绍如何利用Nuitka编译器和Inno Setup工具为PyQt5应用打造轻量级分发方案,替代传统的PyInstaller打包方式。通过实测对比,Nuitka能将应用体积减半至50MB左右,同时显著提升启动速度至1.8秒,并增强代码安全性。文章详细解析了环境配置、核心参数优化及安装包制作技巧,帮助开发者实现高效、专业的应用分发。
Silvaco TonyPlot数据可视化全攻略:不只是看图,更要读懂器件背后的故事
本文深入解析Silvaco TonyPlot在半导体器件仿真中的数据可视化应用,从基础操作到高级分析技巧,涵盖电学参数提取、掺杂分布可视化及论文级图表制作。通过实战案例和优化建议,帮助用户充分利用TonyPlot的强大功能,提升器件分析的效率与深度。
从零部署Azure DevOps Server:一站式环境搭建与避坑指南
本文详细介绍了从零部署Azure DevOps Server的全过程,包括环境准备、软件安装、部署调优及验证排错。重点解析了SQL Server安装陷阱、Visual Studio精简安装技巧,以及端口配置等关键步骤,帮助开发者高效搭建稳定的一站式DevOps环境,避免常见坑点。
企业级ETL系统架构设计与Kettle实践指南
ETL(Extract-Transform-Load)是数据仓库建设中的核心技术,负责数据的抽取、转换和加载。其核心原理是通过分层架构实现数据的高效流动,包括数据接入层、缓冲存储层、数据处理层、数据服务层和调度监控层。在工程实践中,Kettle作为开源ETL工具被广泛应用,支持从多种数据源抽取数据,并通过可视化界面设计复杂的转换逻辑。企业级ETL系统的技术价值在于确保数据质量、提高处理效率并支持实时数据分析。典型应用场景包括校园卡系统、教务系统等业务系统的数据整合。本文详细解析了基于Kettle的ETL系统架构设计,涵盖资源库配置、作业设计模式、转换组件最佳实践等关键实施细节,并提供了生产环境运维方案和性能优化经验。
LabVIEW多工位并行测试框架开发实践
并行测试技术是自动化测试领域的核心方法,通过多任务同步执行显著提升产线效率。其原理基于计算机并行处理架构,利用多线程/多进程机制实现资源复用。在工业测试场景中,LabVIEW因其图形化编程和硬件集成优势成为主流开发平台。本文详解基于LabVIEW的多工位测试框架,包含任务调度算法、参数管理系统等关键技术模块,特别适合电子产品功能测试与汽车零部件检测场景。该开源框架支持动态工位调整和可视化序列编辑,实测可使测试效率提升300%+,已成功应用于智能手表生产线等实际项目。
Java 8如何通过Solon-AI框架接入MCP协议开发AI应用
MCP协议(Model Context Protocol)作为AI领域的新型交互标准,解决了大模型与外部工具的标准化对接问题。其核心原理是通过定义统一的接口规范,实现不同AI系统间的互操作性。在Java生态中,传统RPC框架难以满足AI场景下的动态工具发现和流式处理需求。Solon-AI框架创新性地通过注解驱动开发模式,使Java 8/11项目无需升级JDK版本即可接入MCP生态。该技术特别适用于企业级AI应用开发,支持STDIO、STREAMABLE等多种通信通道,可广泛应用于金融数据分析、智能运维等场景,实现Java与Python生态的高效协同。
重复文件查找工具的技术原理与工程实践
文件指纹技术是数据去重的核心方法,通过哈希算法生成唯一标识实现高效比对。MD5/SHA-1等加密哈希可确保100%准确性,而抽样哈希策略则能平衡性能与精度。在存储优化领域,该技术可有效解决磁盘空间浪费问题,特别适合多媒体资料库、代码仓库等场景。现代实现方案通常结合Bloom Filter和LRU缓存进行内存优化,配合异步IO提升扫描效率。本文展示的混合哈希策略和硬链接技术,已在百万级文件处理中验证了其工程价值。
告别繁琐命令!用Ansible自动化部署CentOS8上的Oracle 19.3.0数据库
本文详细介绍了如何使用Ansible自动化工具在CentOS8系统上部署Oracle 19.3.0数据库,大幅简化传统繁琐的手动安装流程。通过Playbook实现从系统配置、依赖安装到数据库创建的全流程自动化,确保部署效率提升至30分钟内完成,同时保障环境一致性。特别适合企业级批量部署和测试环境快速重建场景。
教育信息化平台Word粘贴样式错乱解决方案
在Web内容管理系统(CMS)开发中,处理Office文档粘贴是常见的技术挑战。浏览器剪贴板机制会保留Word文档的HTML结构、内联样式和元数据,但不同浏览器解析策略存在差异。富文本编辑器通过过滤机制防范XSS攻击,但过度过滤会导致样式丢失。通过分析UEditor等开源编辑器的工作原理,发现合理配置过滤规则和集成mammoth.js等解析库,可以在保证安全性的同时完美保留Word样式。这种方案特别适合教育信息化平台中的课件上传、在线文档编辑等场景,实测显示能处理10MB以上文档并保留85%以上原始格式。
Nginx高性能Web服务器部署与优化指南
Web服务器是互联网架构的核心组件,其性能直接影响用户体验。Nginx作为高性能的HTTP和反向代理服务器,采用事件驱动的异步架构,相比传统服务器能更高效地处理高并发请求。通过模块化设计和灵活的配置,Nginx可以实现负载均衡、缓存加速等关键功能,特别适合电商、社交等需要处理突发流量的场景。本文以CentOS环境为例,详细介绍从源码编译安装到系统调优的全过程,包括关键模块选择、性能参数优化以及安全加固措施,帮助开发者构建高性能的Web服务基础设施。