Python安全：AST分析防御代码注入攻击-代码聚汇网

Python安全：AST分析防御代码注入攻击

sadeir

1. 项目背景与核心挑战

在Python应用安全领域，正则表达式常被用作输入过滤的第一道防线。开发人员习惯用正则模式匹配来拦截危险字符串，比如eval(、exec(等明显危险函数调用。但这种方式存在致命缺陷——攻击者可以通过精心构造的语法变形绕过正则检测。

去年我在审计某金融系统时，发现一个典型的案例：系统用re.match(r'eval\(.*\)', user_input)来过滤用户输入，但攻击者只需插入注释或换行就能轻松绕过（如ev#al(\n'import os;os.system("rm -rf /")')）。这种基于字符串匹配的防御在动态语言中几乎形同虚设。

2. 技术方案设计思路

2.1 防御机制突破原理

传统正则过滤的弱点在于：

语法无关性：只做文本匹配，不解析代码结构
变形容忍度低：空格/注释/字符串拼接等简单变形即可绕过
上下文盲区：无法识别经过编码或动态拼接的恶意代码

我们的解决方案采用AST（抽象语法树）分析，其优势在于：

语法感知：解析后得到标准化的语法结构
变形免疫：eval("im"+"port('os')")和eval("import('os')")会生成相同AST
执行路径追踪：可检测间接调用链（如getattr(__import__('os'), 'system')）

2.2 AST分析流程设计

典型实现包含三个阶段：

python复制import ast

def analyze_code(code):
    # 阶段1：语法解析
    try:
        tree = ast.parse(code)
    except SyntaxError:
        return False  # 非法语法直接拦截
    
    # 阶段2：AST遍历
    for node in ast.walk(tree):
        # 阶段3：危险模式检测
        if isinstance(node, ast.Call):
            if is_dangerous_call(node):
                return True
    return False

3. 关键实现细节

3.1 危险调用识别算法

核心检测逻辑需要处理多种攻击向量：

攻击类型	示例代码	AST节点特征
直接调用	`eval("import('os')")`	`ast.Call(func=ast.Name(id='eval'))`
属性链式调用	`__import__('os').system('ls')`	`ast.Call(func=ast.Attribute)`
动态函数获取	`getattr(__builtins__, 'eval')`	`ast.Call(func=ast.Call)`
元类注入	`type('',(),{'__eq__':eval})()`	`ast.Call(func=ast.Subscript)`

实现时需要特别关注：

python复制DANGEROUS_NAMES = {'eval', 'exec', '__import__', 'open', 'getattr'}

def is_dangerous_call(node):
    if isinstance(node.func, ast.Name):
        return node.func.id in DANGEROUS_NAMES
    elif isinstance(node.func, ast.Attribute):
        return node.func.attr in DANGEROUS_NAMES
    elif isinstance(node.func, ast.Call):
        return any(is_dangerous_call(node.func))
    return False

3.2 语法糖处理技巧

Python的语法糖会生成复杂AST结构，需要特殊处理：

装饰器检测：

python复制@exec  # 会被解析为ast.Call节点
def x(): pass

海象运算符：

python复制if (x := eval('1+1')): ...  # 需要检查ast.NamedExpr节点

f-string执行：

python复制f"{__import__('os').system('ls')}"  # 包含ast.JoinedStr节点

4. 绕过防御的进阶技术

4.1 AST注入技术

攻击者可能构造合法AST绕过检查：

python复制# 看似无害的代码
[x for x in [].__class__.__base__.__subclasses__() 
 if x.__name__ == 'catch_warnings'][0]()._module.__builtins__['eval']('...')

防御策略需要：

限制循环和推导式深度
检测魔法方法调用链
监控__builtins__访问

4.2 字节码注入方案

通过types.CodeType直接构造字节码：

python复制code = compile('import os;os.system("ls")', '', 'exec')
types.FunctionType(code, globals())()  # 绕过AST检查

应对方案：

禁用compile/FunctionType等底层接口
使用ast.literal_eval替代eval

5. 生产环境部署建议

5.1 性能优化方案

AST解析可能成为性能瓶颈，建议：

缓存机制：对已验证代码缓存AST结果
采样检查：对高频调用代码进行概率性检查
JIT优化：使用C扩展加速AST遍历（如astroid库）

5.2 防御纵深配置

推荐的多层防护体系：

输入层：基础正则过滤（拦截明显攻击模式）
语法层：AST分析（核心防御）
运行时层：限制解释器功能（如sys.addaudithook）
容器层：沙箱隔离（如gVisor、Firecracker）

6. 实战案例与排查记录

6.1 某CMS系统漏洞复盘

攻击payload：

python复制(lambda f=(lambda x: [c for c in ().__class__.__base__.__subclasses__() 
                     if c.__name__ == x][0]): 
 f('catch_warnings')()._module.__builtins__['eval']('__import__("os").system("rm *")'))()

AST特征分析：

嵌套的lambda表达式
利用元类继承链获取catch_warnings
通过_module.__builtins__访问原生函数

解决方案：

python复制def check_lambda(node):
    if isinstance(node, ast.Lambda):
        for subnode in ast.walk(node):
            if isinstance(subnode, ast.Attribute):
                if subnode.attr.startswith('_'):
                    return True
    return False

6.2 异常处理陷阱

危险模式：

python复制try:
    pass
except Exception as e:
    e.__class__.__mro__[-1].__subclasses__()[132].load_module('os')

防御要点：

监控__mro__、__subclasses__等元编程操作
限制异常处理块中的动态属性访问

7. 工具链与扩展方案

7.1 推荐工具库

工具名称	适用场景	特点
`astroid`	复杂代码分析	支持跨文件引用分析
`bandit`	安全扫描	预置常见漏洞模式
`pyflakes`	语法检查	轻量级快速扫描
`RestrictedPython`	沙箱执行	内置安全策略

7.2 自定义规则开发

示例：检测pickle反序列化风险

python复制class PickleVisitor(ast.NodeVisitor):
    def visit_Call(self, node):
        if (isinstance(node.func, ast.Attribute) and 
            node.func.attr == 'loads' and 
            isinstance(node.func.value, ast.Name) and 
            node.func.value.id == 'pickle'):
            raise SecurityError("Unsafe pickle usage detected")

8. 经验总结与避坑指南

不要信任任何输入：即使通过AST检查，也要在受限环境中执行
深度防御原则：AST分析应作为多层防御的一环而非唯一手段
注意语法版本差异：Python 3.8+的AST结构与早期版本有重大变化
性能权衡：对性能敏感场景可采用抽样检查策略

典型误判案例：

python复制# 安全代码被误判
json.loads('{"key": "value"}')  # 可能被识别为pickle.loads

解决方案是维护白名单机制：

python复制ALLOWED_CALLS = {'json.loads', 'ast.literal_eval'}

if get_call_path(node) in ALLOWED_CALLS:
    return False

最后分享一个实用技巧：在AST检查前先做基础文本匹配，可以过滤掉90%的简单攻击尝试，大幅降低AST解析的开销。比如先检测是否存在__import__、eval等关键字，再决定是否启动深度分析。