Python正则表达式与爬虫实战：数据匹配与图片抓取

伊凹遥

1. 正则表达式实战：精准匹配常见数据格式

正则表达式是文本处理的瑞士军刀，在数据清洗、表单验证、日志分析等场景中不可或缺。下面我将通过四个典型场景，带你掌握如何用Python的re模块构建精准匹配规则。

1.1 陕西省区号匹配

陕西地区固定电话的区号格式为029-XXXXXXX，我们需要验证输入是否符合这一规范：

python复制"陕西区号": r"^029-\d+$"

这个正则表达式的核心要素：

^ 表示字符串开始，确保没有前缀字符
029- 是字面匹配，必须精确出现
\d+ 匹配1个或多个数字（+量词）
$ 表示字符串结束，防止后面有多余字符

实际应用中建议限制号码长度，如\d{7,8}匹配7-8位号码，避免匹配到超长错误输入

1.2 邮政编码验证

中国邮政编码是6位纯数字，这个规则看似简单但有几个注意点：

python复制"邮政编码": r"^\d{6}$"

关键细节：

使用{6}精确匹配6位数字，比+或*更严格
某些特殊机构（如军工单位）使用特殊邮编，如需排除可改为[1-9]\d{5}
国际邮编规则不同，此正则仅适用于中国大陆

1.3 邮箱地址校验

邮箱格式相对复杂，需要兼顾通用性和安全性：

python复制"邮箱": r"^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$"

这个正则做了以下设计：

用户名部分：允许字母、数字、下划线和连字符
@符号作为分隔符
域名部分：支持多级子域（如mail.xjtu.edu.cn）
强制包含至少一个点号后缀（.com等）

商业级应用建议使用email-validator库，RFC标准正则非常复杂

1.4 身份证号验证

18位身份证号校验需要同时考虑格式和校验位：

python复制"身份证号": r"^\d{17}[\dXx]$"

进阶校验方案：

前6位是地区码，可单独校验有效性
7-14位是生日，应验证日期合法性
第18位是校验码，需要按GB11643-1999标准计算
示例扩展校验函数：

python复制def validate_id_number(id_num):
    # 基本格式校验
    if not re.fullmatch(r"^\d{17}[\dXx]$", id_num):
        return False
        
    # 校验码计算
    factor = [7,9,10,5,8,4,2,1,6,3,7,9,10,5,8,4,2]
    check_codes = "10X98765432"
    total = sum(int(a)*b for a,b in zip(id_num[:17], factor))
    return id_num[-1].upper() == check_codes[total % 11]

2. 网页图片爬虫开发实战

2.1 爬虫核心实现

我们使用requests+BeautifulSoup组合实现图片爬取，关键点包括：

python复制def crawl_school_images(url, save_file="img_urls.txt"):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
    }
    
    try:
        response = requests.get(url, headers=headers, timeout=10)
        soup = BeautifulSoup(response.text, "html.parser")
        
        img_urls = []
        for img in soup.find_all("img"):
            img_src = img.get("src")
            if img_src:
                # URL标准化处理
                if img_src.startswith("//"):
                    img_src = "https:" + img_src
                elif not img_src.startswith(("http", "https")):
                    img_src = urljoin(url, img_src)
                img_urls.append(img_src)
        
        # 结果存储
        with open(save_file, "w", encoding="utf-8") as f:
            f.write("\n".join(img_urls))
        return img_urls

2.2 装饰器实现爬虫日志

装饰器为爬虫添加了执行监控能力：

python复制def crawl_logger(func):
    def wrapper(url, *args, **kwargs):
        start_time = datetime.now()
        print(f"开始爬取：{start_time.strftime('%Y-%m-%d %H:%M:%S')}")
        
        img_urls = func(url, *args, **kwargs)
        
        log_info = f"""
耗时：{(datetime.now() - start_time).total_seconds():.2f}秒
图片数量：{len(img_urls)}
目标网址：{url}
"""
        with open("crawl_log.txt", "a") as f:
            f.write(log_info)
        return img_urls
    return wrapper

2.3 工程化改进建议

生产环境爬虫还需要考虑：

异常处理增强
- 重试机制（使用retrying库）
- 代理IP轮换（应对反爬）
- 超时分级设置（连接超时vs读取超时）

性能优化

python复制# 使用Session保持连接
session = requests.Session()
response = session.get(url)

# 异步爬取（aiohttp+asyncio）
async with aiohttp.ClientSession() as session:
    async with session.get(url) as resp:
        html = await resp.text()

反爬对抗策略
- 随机User-Agent（fake-useragent库）
- 请求间隔随机化（time.sleep + random）
- 浏览器自动化（selenium/puppeteer）

3. 常见问题与解决方案

3.1 正则表达式调试技巧

在线测试工具推荐
- regex101.com（可视化解析）
- pythex.org（Python专用）

调试方法

python复制# 编译时开启调试标志
re.compile(pattern, re.DEBUG)

# 分步测试复杂正则
phone_re = re.compile(r"""
    ^               # 字符串开始
    (029)          # 区号分组
    -              # 分隔符
    (\d{7,8})      # 号码分组
    $              # 字符串结束
""", re.VERBOSE)

3.2 爬虫开发中的坑

动态加载内容处理
- 使用selenium渲染JS
- 分析XHR请求接口

图片URL处理经验

python复制# 常见问题案例
img_src = "data:image/png;base64,..."  # Base64内嵌图片
img_src = "javascript:void(0)"         # 无效JS链接
img_src = "//example.com/img.jpg"      # 协议相对URL

法律合规要点
- 遵守robots.txt规则
- 设置合理爬取间隔（>3秒）
- 避免爬取个人敏感信息

4. 项目扩展方向

4.1 正则表达式进阶应用

分组提取数据

python复制# 提取区号和号码
match = re.fullmatch(r"^(029)-(\d+)$", "029-87654321")
area_code, number = match.groups()

替换与分割

python复制# 模糊匹配替换
text = "联系：029-12345或029-67890"
re.sub(r"029-\d+", "[区号屏蔽]", text)

4.2 爬虫项目扩展

图片下载器改进

python复制def download_image(url, save_dir):
    response = requests.get(url, stream=True)
    file_name = os.path.join(save_dir, url.split("/")[-1])
    with open(file_name, "wb") as f:
        for chunk in response.iter_content(1024):
            f.write(chunk)