Python爬虫JSON解析错误与中文字符编码解决方案-代码聚汇网

Python爬虫JSON解析错误与中文字符编码解决方案

北极巨兔

1. 问题现象与背景解析

最近在调试一个Python爬虫项目时遇到了一个典型的JSON解析报错："JSON parse error: Unrecognized token 'pageNo': was expecting..."，这个错误发生在向某网站API发送POST请求时，特别是当请求参数中包含中文字符的情况下。作为一名长期与各种API打交道的开发者，这类编码问题其实非常常见，但每次具体表现可能略有不同。

这个错误表面看是JSON解析失败，但深层次涉及三个关键点：

HTTP请求头的Content-Type设置
请求体的编码格式处理
服务端对特殊字符的解析逻辑

2. 问题根因深度分析

2.1 JSON解析错误的典型表现

错误信息中提到的"Unrecognized token 'pageNo'"很具迷惑性，它暗示着JSON解析器在期望某个语法结构时遇到了意外内容。具体到我们的场景，可能有以下情况：

服务端收到的是非标准JSON格式数据
数据在传输过程中编码被破坏
请求头声明与实际内容不匹配

2.2 中文字符的特殊处理需求

当请求参数包含中文时，需要特别注意：

中文字符在HTTP传输中默认需要URL编码
JSON标准要求使用UTF-8编码
部分老旧API可能只支持GBK编码

关键提示：中文字符在POST请求中可能经历多次编码转换，任何环节出错都会导致最终解析失败。

3. 解决方案与实操步骤

3.1 标准化的POST请求实现

以下是经过实战检验的Python POST请求模板：

python复制import requests
import json

url = "https://api.example.com/endpoint"
headers = {
    "Content-Type": "application/json; charset=UTF-8",
    "User-Agent": "Mozilla/5.0"
}

data = {
    "pageNo": 1,
    "keyword": "中文搜索词"
}

# 关键步骤1：确保字典转为标准JSON字符串
json_data = json.dumps(data, ensure_ascii=False)

# 关键步骤2：显式指定编码
response = requests.post(
    url,
    data=json_data.encode('utf-8'),
    headers=headers
)

# 关键步骤3：检查响应编码
response.encoding = 'utf-8'
print(response.json())

3.2 必须注意的四个关键参数

ensure_ascii=False：允许JSON中包含非ASCII字符
encode('utf-8')：显式指定字节流编码
charset=UTF-8：在header中声明编码
response.encoding：设置响应解码方式

4. 常见问题排查指南

4.1 问题现象与解决方案对照表

问题现象	可能原因	解决方案
JSON parse error	请求头Content-Type缺失	添加"application/json"头
中文变问号	双重编码/解码错误	统一使用UTF-8编码
部分字段丢失	数据未序列化	使用json.dumps转换
连接被重置	防火墙拦截	添加合法User-Agent

4.2 高级调试技巧

使用requests_toolbelt库的调试工具：

python复制from requests_toolbelt.utils import dump
response = requests.post(...)
print(dump.dump_all(response).decode('utf-8'))

启用Wireshark抓包分析原始HTTP流量（注意隐私合规）
使用Postman先测试成功，再移植到Python代码

5. 编码问题的深层原理

5.1 HTTP协议中的编码流程

完整的字符传输过程：

应用层：Python字符串(Unicode)
序列化：JSON字符串(UTF-8)
传输层：字节流(HTTP body)
服务端：反向解码过程

任何环节编码不一致都会导致：

乱码
解析错误
数据截断

5.2 不同场景下的编码选择

表单提交：application/x-www-form-urlencoded
文件上传：multipart/form-data
API交互：application/json

经验法则：现代Web API优先使用UTF-8编码的JSON格式

6. 实战中的避坑经验

不要依赖requests的自动编码：虽然requests很智能，但显式指定编码更可靠
服务端兼容性测试：先用简单ASCII字符测试，再引入中文
编码声明要一致：HTTP头、JSON元数据、文件编码三者统一
异常处理要完整：

python复制try:
    resp = requests.post(...)
    resp.raise_for_status()
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")
    print(f"请求内容: {e.request.body}")

7. 性能优化建议

复用Session对象：

python复制session = requests.Session()
session.headers.update({"Content-Type": "application/json"})

启用连接池：

python复制adapter = requests.adapters.HTTPAdapter(
    pool_connections=10,
    pool_maxsize=10
)
session.mount('https://', adapter)

对于高频请求，考虑使用更高效的序列化方案（如MessagePack）

8. 扩展知识：其他语言的对比

8.1 JavaScript的Fetch API处理

javascript复制fetch(url, {
  method: 'POST',
  headers: {
    'Content-Type': 'application/json;charset=UTF-8'
  },
  body: JSON.stringify({pageNo: 1, keyword: '中文'})
})

8.2 Java的HttpClient处理

java复制HttpRequest request = HttpRequest.newBuilder()
    .uri(URI.create(url))
    .header("Content-Type", "application/json")
    .POST(HttpRequest.BodyPublishers.ofString(
        new JSONObject()
            .put("pageNo", 1)
            .put("keyword", "中文")
            .toString()
    ))
    .build();

9. 安全注意事项

敏感数据不要放在URL参数中
使用HTTPS加密传输
对响应数据做合法性校验
设置合理的超时时间：

python复制requests.post(url, timeout=(3.05, 27))

10. 最新技术趋势观察

HTTP/2对编码处理的影响
GraphQL等新技术对传统REST API的冲击
二进制协议（如gRPC）的编码优势

在实际项目中，我发现很多团队仍然会遇到这类基础但重要的问题。经过多次调试后，我现在会为每个项目建立标准的HTTP请求工具类，封装好编码处理、异常捕获和日志记录，这能节省大量调试时间。