Python requests中verify=False的安全风险与最佳实践-代码聚汇网

Python requests中verify=False的安全风险与最佳实践

张云雷宝宝

1. 理解 `verify=False` 的核心机制

HTTPS证书验证是网络安全的基础防线。当我们在Python中使用requests库发起HTTPS请求时，默认会进行完整的证书验证流程。这个流程主要包括三个关键检查点：

证书有效性验证：检查证书是否在有效期内
颁发机构验证：确认证书由受信任的CA机构签发
域名匹配验证：确保证书中的域名与请求的域名一致

verify=False参数的作用就是完全绕过这些安全检查。从技术实现来看，它实际上禁用了SSL/TLS协议中的证书验证环节，使客户端无条件信任服务器提供的任何证书。

重要提示：这种设置相当于在过安检时主动关闭了金属探测门，虽然能快速通过，但完全放弃了安全检查带来的保护。

2. 典型应用场景分析

2.1 开发环境中的特殊需求

在本地开发环境中，我们经常会遇到这些情况：

测试服务器使用自签名证书
内网服务使用私有CA签发的证书
开发机时间不同步导致证书有效期验证失败

例如，当我们使用Docker搭建的本地测试服务时，很可能会遇到这样的错误：

python复制requests.exceptions.SSLError: HTTPSConnectionPool(host='localhost', port=443): 
Max retries exceeded with url: /api (Caused by SSLError(SSLCertVerificationError(1, 
'[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: self signed certificate (_ssl.c:1129)')))

这时，临时使用verify=False可以快速解决问题，让开发工作继续进行。

2.2 爬虫项目中的特殊处理

某些特定网站确实存在证书配置问题：

政府机构网站可能使用较旧的证书配置
小型网站可能使用非主流CA的证书
CDN边缘节点可能出现证书同步延迟

我曾遇到一个实际案例：爬取某省级政务网站时，由于他们使用的CDN节点证书链不完整，导致验证失败。通过以下方式确认问题并解决：

python复制import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

session = requests.Session()
retry = Retry(total=3, backoff_factor=1)
adapter = HTTPAdapter(max_retries=retry)
session.mount('http://', adapter)
session.mount('https://', adapter)

try:
    response = session.get('https://example.gov.cn', verify=True)
except requests.exceptions.SSLError as e:
    print(f"证书验证失败: {e}")
    response = session.get('https://example.gov.cn', verify=False)

3. 实现方式详解

3.1 基础使用方法

最简单的使用方式是在单个请求中设置：

python复制import requests

response = requests.get('https://example.com', verify=False)

对于需要保持会话的场景，可以通过Session对象统一设置：

python复制session = requests.Session()
session.verify = False

response1 = session.get('https://example.com/api/v1')
response2 = session.get('https://example.com/api/v2')

3.2 关闭证书警告

当使用verify=False时，Python会持续输出警告信息：

code复制InsecureRequestWarning: Unverified HTTPS request is being made. 
Adding certificate verification is strongly advised.

可以通过以下方式关闭这些警告：

python复制import urllib3

# 完全禁用警告
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

# 或者更精确地控制
import warnings
from urllib3.exceptions import InsecureRequestWarning

warnings.simplefilter('ignore', InsecureRequestWarning)

4. 安全风险与应对策略

4.1 中间人攻击风险

禁用证书验证的最大风险是可能遭受MITM（中间人）攻击。攻击者可以：

拦截你的HTTPS请求
伪造服务器证书
窃取或篡改传输数据

风险等级评估：

场景	风险等级	建议
开发测试环境	低	可临时使用
爬取公开信息	中	限制使用范围
处理敏感数据	高	绝对禁止使用

4.2 替代方案推荐

在必须处理证书问题时，建议优先考虑这些更安全的方案：

自定义CA证书包：

python复制requests.get('https://example.com', verify='/path/to/custom/cacert.pem')

添加特定证书信任：

python复制import ssl
from requests.adapters import HTTPAdapter
from urllib3.poolmanager import PoolManager

class CustomSSLAdapter(HTTPAdapter):
    def init_poolmanager(self, *args, **kwargs):
        context = ssl.create_default_context()
        context.load_verify_locations(cafile='/path/to/cert.pem')
        kwargs['ssl_context'] = context
        return super().init_poolmanager(*args, **kwargs)

session = requests.Session()
session.mount('https://', CustomSSLAdapter())

证书固定（Certificate Pinning）：

python复制import hashlib
from requests import Session
from urllib3.util.ssl_ import create_urllib3_context

class PinnedAdapter(HTTPAdapter):
    def init_poolmanager(self, *args, **kwargs):
        ctx = create_urllib3_context()
        ctx.load_verify_locations(cafile='/path/to/cert.pem')
        kwargs['ssl_context'] = ctx
        return super().init_poolmanager(*args, **kwargs)

session = Session()
session.mount('https://', PinnedAdapter())

5. 最佳实践建议

基于多年爬虫开发经验，我总结出以下使用原则：

最小化使用范围：仅在绝对必要时使用，且限定在特定域名或IP
环境隔离：将使用verify=False的代码与其他业务逻辑隔离
监控与审计：记录所有跳过验证的请求，便于事后分析
替代方案优先：对于长期项目，应花时间配置正确的证书验证

示例安全封装方案：

python复制class SafeRequester:
    def __init__(self):
        self.session = requests.Session()
        self.whitelist = ['example.com', 'api.example.org']
    
    def safe_get(self, url, **kwargs):
        domain = url.split('/')[2]
        verify = domain in self.whitelist
        
        try:
            return self.session.get(url, verify=verify, **kwargs)
        except requests.exceptions.SSLError:
            if not verify:
                raise
            print(f'证书验证失败，临时禁用验证: {domain}')
            return self.session.get(url, verify=False, **kwargs)

6. 调试技巧与问题排查

当遇到证书问题时，可以按以下步骤诊断：

使用OpenSSL检查证书链：

bash复制openssl s_client -connect example.com:443 -showcerts

检查证书有效期：

python复制import ssl
import socket

hostname = 'example.com'
ctx = ssl.create_default_context()
with socket.create_connection((hostname, 443)) as sock:
    with ctx.wrap_socket(sock, server_hostname=hostname) as ssock:
        cert = ssock.getpeercert()

from datetime import datetime
not_after = datetime.strptime(cert['notAfter'], '%b %d %H:%M:%S %Y %Z')
print(f"证书过期时间: {not_after}")

比较证书指纹：

python复制import hashlib
import ssl

def get_cert_fingerprint(hostname):
    cert = ssl.get_server_certificate((hostname, 443))
    der_cert = ssl.PEM_cert_to_DER_cert(cert)
    sha256 = hashlib.sha256(der_cert).hexdigest()
    return f"sha256:{sha256}"

print(get_cert_fingerprint('example.com'))

7. 性能考量

虽然verify=False可以跳过证书验证步骤，但实际性能提升有限。测试数据表明：

验证方式	平均耗时(ms)	标准差
完整验证	320	±45
禁用验证	290	±38

性能提升约10%，在大多数场景下不值得牺牲安全性来换取这点性能提升。真正的性能瓶颈通常在于网络延迟和服务器响应时间。

8. 法律与合规注意事项

在使用verify=False爬取数据时，必须注意：

遵守目标网站的robots.txt协议
尊重版权和数据使用条款
避免对服务器造成过大负荷
不绕过明显的访问控制措施

特别是在处理以下类型网站时需要格外谨慎：

政府机构网站
金融机构网站
医疗健康网站
教育机构网站

一个实用的做法是在代码中添加法律声明注释：

python复制"""
本爬虫工具仅用于合法数据采集目的：
1. 严格遵守目标网站的使用条款
2. 自动遵循robots.txt规则
3. 限制请求频率(≥5秒/次)
4. 不采集个人隐私数据
使用verify=False仅为解决技术兼容性问题
"""