网页逆向工程实战：抓包、反混淆与解密技巧-代码聚汇网

网页逆向工程实战：抓包、反混淆与解密技巧

沂樾

1. 网页逆向工程入门：从抓包到解密的完整链路

十年前我刚接触网页逆向时，曾花了两周时间才搞明白一个简单的登录接口参数加密逻辑。如今这套方法论已经形成标准化流程，新手完全可以在三天内掌握核心技巧。本文将分享我这些年总结的"抓包-反混淆-解加密"三板斧，这些技巧曾帮助团队快速突破某电商平台风控系统，单日采集效率提升600%。

网页逆向本质上是与前端代码的对话过程。现代Web应用普遍采用三大防御策略：HTTPS通信加密、JavaScript代码混淆、关键参数加密传输。对应的，我们的技术路线也分为三个层次：网络层抓包获取原始数据、应用层解析混淆代码、算法层还原加密逻辑。下面我会用真实案例演示每个环节的实战技巧。

2. 抓包实战：Charles+Fiddler组合拳

2.1 工具选型与配置要点

新手常犯的错误是直接使用浏览器开发者工具。实际上专业抓包需要满足三个条件：支持HTTPS解密、能捕获跨进程请求、可修改请求参数。经过20多个项目的实测，我推荐以下组合方案：

Charles（主力工具）：配置SSL代理后，可解密99%的HTTPS流量。关键配置步骤：
1. 安装根证书（Help → SSL Proxying → Install Charles Root Certificate）
2. 启用SSL代理（Proxy → SSL Proxying Settings → 添加目标域名和443端口）
3. 设置外部代理（与Fiddler配合时需要）
Fiddler（辅助工具）：特别适合处理WebSocket和gRPC协议。必须开启的选项：
- Tools → Options → HTTPS → 勾选"Decrypt HTTPS traffic"
- Connections → 允许远程计算机连接（用于手机抓包）

重要提示：测试结束后务必关闭代理，否则会导致部分APP无法联网。我曾因此耽误过重要线上会议。

2.2 移动端抓包的特殊技巧

当遇到APP加密传输时，需要突破证书绑定（SSL Pinning）限制。以Android平台为例：

使用Magisk+TrustMeAlready模块绕过证书检查
在Charles中设置rewrite规则，自动修改User-Agent为移动端标识
对Xposed框架检测的应对方案：

java复制// 检测代码示例
if (findHookMethod("de.robv.android.xposed.XposedBridge")) {
    // 触发反爬逻辑
}

应对策略是在Frida脚本中hook相关检测方法，返回false。

2.3 流量特征分析与过滤

典型电商网站的请求特征：

商品详情：包含/item/detail路径 + skuId参数
价格查询：POST请求 + price字段 + JSON格式
风控验证：/security/check接口 + 加密payload

在Charles中设置Focus功能可以快速过滤目标请求。我曾用这个方法在双十一期间成功捕获某平台的实时价格波动接口。

3. 反混淆实战：AST解析与代码还原

3.1 常见混淆类型识别

通过多年踩坑经验，我总结出这些特征码：

变量名混淆：_0x1a2b3c形式的十六进制命名
控制流平坦化：大量switch-case嵌套while循环
字符串加密：atob()或自定义解密函数
死代码注入：永远不会执行的冗余逻辑

最近接手的某金融平台案例中，核心JS文件经过以下混淆处理：

javascript复制function _0x45fe12(_0x12ab34) {
    return _0x12ab34 ^ 0xABCD;
}
// 实际是简单的异或加密

3.2 使用Babel进行AST逆向

AST（抽象语法树）解析是反混淆的终极武器。具体操作流程：

安装必备工具链：

bash复制npm install @babel/parser @babel/traverse @babel/generator

解构控制流平坦化：

javascript复制// 典型处理代码片段
traverse(ast, {
    WhileStatement(path) {
        if (isFlattening(path.node)) {
            const newNodes = extractRealNodes(path);
            path.replaceWithMultiple(newNodes);
        }
    }
});

字符串解密自动化：

javascript复制const decryptMap = {};
traverse(ast, {
    CallExpression(path) {
        if (isDecryptCall(path.node)) {
            const value = evaluateDecrypt(path.node);
            decryptMap[path.node.start] = value;
        }
    }
});

3.3 实战案例：某OTA平台加密解析

去年分析的某旅游网站，其价格查询接口参数加密流程如下：

生成16位随机字符串nonce
使用SHA256计算timestamp + nonce的哈希值
用RSA公钥加密哈希值作为signature

通过AST还原后，发现核心加密函数其实调用了浏览器的原生Crypto API：

javascript复制window.crypto.subtle.encrypt(
    { name: "RSA-OAEP" },
    publicKey,
    new TextEncoder().encode(rawData)
)

4. 加密算法逆向：从黑盒到白盒

4.1 快速识别加密类型的方法

通过观察参数特征可以初步判断算法类型：

参数特征	可能算法	验证方法
长度固定64字符	SHA256	检查输出长度是否匹配
包含`+/=`结尾	Base64	尝试解码验证
开头为 $2a$	bcrypt	使用hashcat测试
动态变化但结构相似	AES/CBC	查找IV和key的生成逻辑

最近遇到的典型案例：某社交平台的密码字段为40位十六进制字符串，实际是SHA1(salt + MD5(password))的嵌套哈希。

4.2 调试大法：Console与Hook技巧

在Chrome DevTools中这些技巧很实用：

重写函数：在Console中重新定义加密函数

javascript复制originalEncrypt = window.encrypt;
window.encrypt = function(params) {
    console.log("Input:", params);
    const result = originalEncrypt(params);
    console.log("Output:", result);
    return result;
}

XHR断点：在Sources面板添加XHR断点，捕获含特定关键词的请求
内存嗅探：对CryptoJS等库的对象实例进行属性遍历

javascript复制Object.keys(window.CryptoJS).forEach(k => {
    if (typeof window.CryptoJS[k] === 'object') {
        console.log(k, window.CryptoJS[k]);
    }
})

4.3 算法还原实战：某票务平台分析

通过动态调试发现其座位锁定接口的加密流程：

构造原始参数对象：

json复制{
    "showId": "12345",
    "seat": "A12",
    "timestamp": 1685432100
}

按字段名ASCII码升序拼接：

python复制params = ["seat", "showId", "timestamp"]
ordered = sorted(params, key=lambda x: ord(x[0]))
concated = "&".join([f"{k}={v}" for k in ordered])
# 得到 "seat=A12&showId=12345×tamp=1685432100"

计算MD5哈希后取前16位作为签名：

javascript复制const sign = CryptoJS.MD5(concated).toString().substr(0, 16);

5. 反爬对抗与风控绕过

5.1 常见风控特征识别

根据2023年最新数据，主流平台的风控检测点包括：

行为特征：鼠标移动轨迹、点击间隔时间、页面停留时长
环境指纹：WebGL渲染特征、Canvas噪声、AudioContext指纹
协议特征：TCP窗口大小、SSL握手参数、HTTP/2帧顺序

某次爬虫被ban的案例中，后来发现是因为缺少以下请求头：

http复制X-Requested-With: XMLHttpRequest
Sec-Ch-Ua: "Chromium";v="112"

5.2 Puppeteer高级伪装技巧

使用无头浏览器时的关键配置：

javascript复制const browser = await puppeteer.launch({
    headless: true,
    args: [
        '--disable-web-security',
        '--disable-features=IsolateOrigins',
        '--disable-blink-features=AutomationControlled',
        `--user-agent=Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/${Math.floor(Math.random() * 10) + 100}.0.0.0 Safari/537.36`
    ]
});

// 关键页面操作前添加人类化延迟
await page.evaluate(() => {
    Object.defineProperty(navigator, 'webdriver', {
        get: () => false
    });
});

5.3 分布式采集架构设计

高并发场景下的推荐方案：

code复制用户操作终端 → 任务队列(RabbitMQ) →  Worker节点集群
    ↑                               ↓
配置管理中心 ←───── 结果存储(MinIO) ← 数据处理节点

关键参数配置：

每个Worker设置5-10秒随机延迟
IP轮换使用Luminati或911.re代理API
错误自动重试机制（除403/404状态码）

6. 效率提升与工具链搭建

6.1 自动化分析流水线

我团队目前使用的自动化分析流程：

自动抓包：Mitmproxy录制流量 → 自动分类存储
智能识别：基于机器学习的接口特征识别（使用训练好的CNN模型）
一键反混淆：自定义的Webpack插件自动还原代码
算法推测：通过参数变化模式猜测加密类型

6.2 自制工具分享

开发了几个提高效率的小工具：

ParamGen：根据历史请求自动生成参数组合

python复制def generate_params(base):
    variants = []
    for i in range(1, 6):
        new = base.copy()
        new['nonce'] = f"{random.randint(1e8, 1e9)}"
        variants.append(new)
    return variants

HookHelper：快速生成Frida脚本模板

javascript复制function makeHook(className, methodName) {
    return `Interceptor.attach(Module.findExportByName(null, "${methodName}"), {
        onEnter: function(args) {
            console.log("Called ${className}.${methodName}");
        }
    });`;
}

6.3 学习资源推荐

进阶学习路径：

基础：《Web安全攻防》《JavaScript高级程序设计》
工具：《Frida官方手册》《Chrome DevTools权威指南》
算法：《应用密码学》《加密与解密实战》

特别推荐GitHub上的这些项目：

awesome-web-security（Web安全资源大全）
js-obfuscator-benchmark（各混淆工具对比）
crypto-attacks（经典加密攻击案例）

经过上百个项目的实践验证，这套方法能解决90%的网页逆向需求。最近帮某跨境电商团队用这些技巧实现了竞品价格监控系统，日均处理请求量超过200万次。记住核心原则：多观察、少蛮干，逆向的本质是理解开发者的设计思路。