Python爬取财富中国500强数据实战指南-代码聚汇网

1. 财富中国500强数据爬取实战指南

作为一名长期从事数据采集工作的Python开发者，我经常需要从各类榜单网站获取企业数据。财富中国500强榜单是商业分析领域的重要参考，今天我将分享一个完整的爬虫实战案例，教你如何高效采集这些数据。

这个爬虫项目采用了标准的"请求-解析-存储"流程，使用requests获取网页内容，正则表达式提取数据，最后用pandas保存到Excel。整个过程不到100行代码，却能帮你节省数小时手动整理的时间。无论你是商业分析师、金融从业者还是数据爱好者，这个案例都能为你提供实用的爬虫思路。

2. 技术准备与环境搭建

2.1 基础环境配置

我推荐使用Python 3.8+版本进行开发，这个案例中我使用的是Python 3.12.3。开发环境可以选择PyCharm专业版或VS Code，两者都提供了优秀的Python支持。

需要安装的核心库有三个：

requests (2.32.5)：用于发送HTTP请求获取网页内容
pandas (2.3.3)：用于数据清洗和Excel导出
openpyxl (3.1.5)：作为pandas的Excel引擎

安装命令很简单：

bash复制pip install requests==2.32.5 pandas==2.3.3 openpyxl==3.1.5

2.2 开发工具选择建议

对于爬虫开发，我强烈建议使用具备以下功能的IDE：

请求调试工具：PyCharm的HTTP Client或VS Code的REST Client插件
变量查看功能：方便调试时观察数据结构
代码自动补全：提高开发效率

如果你刚开始学习爬虫，PyCharm社区版就足够使用，它的调试功能非常直观。

3. 网页分析与爬虫设计

3.1 目标页面结构分析

财富中国500强榜单页面(以2025年为例)采用传统的表格布局，数据直接渲染在HTML中，这给爬取带来了便利。通过浏览器开发者工具(F12)检查元素，我们可以看到：

企业数据包含在标签中

每行

对应一家企业

每列

包含排名、名称、营业收入等字段

关键点在于找到数据所在的HTML节点，这里我们可以使用XPath或CSS选择器定位。不过考虑到页面结构规整，正则表达式也是不错的选择。

3.2 反爬策略应对方案

财富中国500强网站的反爬措施相对温和，但我们仍需注意：

User-Agent设置：模拟主流浏览器
请求频率控制：避免过快请求
异常处理：网络波动时的重试机制

实测表明，设置合理的请求头后，单次请求就能获取全部数据，不需要处理复杂的反爬机制。

4. 爬虫核心实现

4.1 网页请求模块

首先构建请求函数，关键点在于请求头的设置：

python复制import requests

def fetch_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        return response.text
    except requests.exceptions.RequestException as e:
        print(f"请求失败: {e}")
        return None

这个函数处理了网络请求的异常情况，设置了10秒超时，确保程序健壮性。

4.2 数据解析模块

解析环节我们使用正则表达式提取表格数据：

python复制import re

def parse_html(html):
    pattern = re.compile(r'<tr>.*?<td.*?>(\d+)</td>.*?<td.*?><a.*?>(.*?)</a></td>.*?<td.*?>([\d,.]+)</td>.*?<td.*?>([\d,.]+)</td>', re.S)
    items = re.findall(pattern, html)
    return items

正则表达式说明：

(\d+) 匹配排名数字
(.*?) 非贪婪匹配公司名称
([\d,.]+) 匹配营业收入和利润数字

这种写法虽然不如BeautifulSoup直观，但性能更好，适合简单的表格数据提取。

4.3 数据存储模块

使用pandas将数据保存为Excel：

python复制import pandas as pd

def save_to_excel(data, filename):
    df = pd.DataFrame(data, columns=['排名', '公司名称', '营业收入(百万)', '利润(百万)'])
    df.to_excel(filename, index=False, engine='openpyxl')

pandas的DataFrame提供了强大的数据清洗能力，我们可以轻松地对提取的数据进行进一步处理，比如：

格式化数字列
添加计算字段
数据筛选

5. 完整代码实现

将各模块组合起来，形成完整爬虫：

python复制import requests
import re
import pandas as pd

def main():
    url = "https://www.fortunechina.com/fortune500/c/2025-07/22/content_467056.htm"
    
    print("开始获取网页内容...")
    html = fetch_page(url)
    if not html:
        print("获取网页内容失败")
        return
    
    print("解析数据中...")
    data = parse_html(html)
    if not data:
        print("解析数据失败")
        return
    
    print("保存到Excel...")
    save_to_excel(data, "fortune500_2025.xlsx")
    print("数据保存完成")

if __name__ == "__main__":
    main()