Python正则过滤绕过：AST技术实战与防御-代码聚汇网

Python正则过滤绕过：AST技术实战与防御

南都有雪

1. 项目背景与核心挑战

在Python应用安全领域，正则表达式常被用作输入过滤的第一道防线。开发人员通过编写特定的正则模式来阻止潜在的危险字符串输入，比如防止代码注入攻击。然而，这种防护机制往往存在被绕过的风险。本项目探讨了一种结合AST（抽象语法树）技术的绕过方案，展示了即使存在严格的正则过滤，攻击者仍可能通过语法树重构的方式实现代码执行。

这种攻击手法的特殊之处在于，它不需要依赖任何已知漏洞或系统缺陷，而是利用编程语言本身的特性来实现绕过。攻击者通过分析目标正则表达式的过滤规则，构造出能够通过检查但实际仍能执行的恶意代码。这种攻击方式对依赖正则过滤的Web应用、API接口等场景构成严重威胁。

2. 技术原理深度解析

2.1 正则表达式过滤的局限性

大多数安全防护中使用的正则表达式都存在一个根本性缺陷：它们只能检查文本表面的模式匹配，而无法理解代码的实际语义。例如，一个过滤eval(的正则可能被eval ( （添加空格）或eval\x28（使用十六进制表示）绕过。

更复杂的绕过技术包括：

Unicode同形字替换（如使用希腊字母ο代替英文字母o）
字符串拼接（如'ev'+'al'）
注释插入（如ev/**/al）
非常规编码（如Base64、URL编码）

2.2 抽象语法树的工作原理

AST是源代码抽象语法结构的树状表示。Python的ast模块可以将代码解析为树结构，每个节点表示代码中的一个构造。例如，表达式1 + 2会被解析为：

code复制BinOp(
    left=Num(n=1),
    op=Add(),
    right=Num(n=2)
)

攻击者可以利用AST的这种特性，将恶意代码分解为多个无害的片段，然后通过树操作重新组合。这种方式生成的代码在文本层面与正则过滤模式完全不同，但执行效果完全一致。

3. 完整绕过方案实现

3.1 环境准备与工具链

实现该攻击需要以下Python库：

python复制import ast
import re
import types
import sys

建议使用Python 3.8+版本，因为较新的ast模块功能更完善。同时安装astunparse库用于逆向操作：

bash复制pip install astunparse

3.2 绕过正则过滤的核心步骤

假设目标系统使用如下正则过滤eval调用：

python复制dangerous_pattern = re.compile(r'eval\s*\(')

步骤1：AST解析与变形

python复制# 原始恶意代码
mal_code = "eval('__import__(\"os\").system(\"whoami\")')"

# 解析为AST
tree = ast.parse(mal_code)

# AST变形：将eval调用改为属性访问形式
class EvalTransformer(ast.NodeTransformer):
    def visit_Call(self, node):
        if isinstance(node.func, ast.Name) and node.func.id == 'eval':
            # 转换为getattr(__builtins__, 'eval')形式
            return ast.Call(
                func=ast.Attribute(
                    value=ast.Name(id='__builtins__', ctx=ast.Load()),
                    attr='eval',
                    ctx=ast.Load()
                ),
                args=node.args,
                keywords=[]
            )
        return node

new_tree = EvalTransformer().visit(tree)

步骤2：代码生成与执行

python复制# 将变形后的AST重新生成代码
new_code = astunparse.unparse(new_tree)  # 输出："getattr(__builtins__, 'eval')('__import__(\"os\").system(\"whoami\")')"

# 执行绕过后的代码
exec(new_code)  # 实际执行whoami命令

3.3 高级变形技巧

更复杂的变形可以结合以下技术：

字符串分片：将敏感字符串拆分为多个部分

python复制# 原始：'os.system'
# 变形：
parts = ['o', 's', '.', 's', 'y', 's', 't', 'e', 'm']
''.join(parts)

Lambda包装：将关键操作隐藏在匿名函数中

python复制(lambda f, a: f(a))(eval, 'malicious_code')

异常处理伪装：利用try-except块隐藏真实意图

python复制try:
    1/0
except:
    eval('mal_code')

4. 防御方案与最佳实践

4.1 强化输入过滤机制

使用多层过滤：结合正则、关键字列表和语法分析
实施严格的输入规范化：统一Unicode、去除非常规空白符
限制允许的字符集：仅开放必要的字符范围

4.2 安全的代码执行方案

如果需要动态执行代码，应该：

使用限制环境的沙箱（如PyPy的沙盒模式）

明确白名单控制：

python复制ALLOWED_FUNCS = {'math.sqrt', 'str.upper'}

def safe_eval(code):
    # 检查code只包含白名单内容
    # ...

采用AST预检查：

python复制def is_safe(code):
    for node in ast.walk(ast.parse(code)):
        if isinstance(node, ast.Call):
            if isinstance(node.func, ast.Name):
                if node.func.id in ('eval', 'exec', 'open'):
                    return False
    return True

4.3 系统级防护措施

启用最小权限原则：运行Python进程的用户应只有必要权限
实施系统调用过滤：使用seccomp限制危险系统调用
定期依赖项检查：确保所有安全相关库保持更新

5. 实战案例与问题排查

5.1 典型绕过案例

案例1：Unicode同形字攻击

python复制# 使用希腊字母ο代替字母o
malicious = "ev\u03b1l('dangerous_code')"

解决方案：

python复制def normalize_unicode(s):
    return s.encode('idna').decode('ascii', 'ignore')

案例2：属性链式调用

python复制# 通过属性链隐藏eval
getattr(getattr(__builtins__, '__dict__')['ev'+'al'], '__call__')('code')

检测方法：

python复制def detect_nested_attrs(node):
    if isinstance(node, ast.Attribute):
        if isinstance(node.value, (ast.Attribute, ast.Call)):
            return True
    return False

5.2 常见错误与调试

问题1：AST变形导致语法错误

现象：生成的代码无法执行，报SyntaxError
排查：使用ast.dump()检查变形后的树结构
修复：确保所有节点类型兼容，特别是上下文(ctx)设置正确

问题2：绕过不完全

现象：变形后的代码仍被过滤
排查：检查正则过滤是否包含预处理步骤
解决：增加更多变形层数，或改用其他绕过技术

问题3：沙箱逃逸

现象：限制环境被突破
预防：禁用__globals__、__closure__等特殊属性访问

6. 进阶研究方向

对于希望深入研究的开发者，以下方向值得探索：

神经网络辅助变形：训练模型自动生成绕过变体
形式化验证：使用定理证明器验证过滤器的完备性
硬件辅助检测：利用Intel CET等CPU特性防止代码注入
WASM沙箱：将Python编译为WebAssembly运行在严格隔离环境

在实际防御中，最重要的是采用深度防御策略，不依赖单一防护机制。同时保持对新型攻击技术的持续跟踪，及时更新防护方案。