在 Python 的底层实现中已经包含了源码到 AST 到 CodeObject 的转换过程,实际上 Python 也提供了一组工具,帮助我们直接控制 AST,如果熟练掌握的话,可以实现一些很有意思的魔法。
从源码到 AST
Python 已经内置了 ast 模块,可以直接从源码生成 AST,另外还有一组工具可以对 AST 做一些调整。首先从最基本的开始,从源码获得 AST 对象。
ast.parse(source, filename='<unknown>', mode='exec', *, type_comments=False, feature_version=None)
主要参数:
- source,待编译代码,字符串;
- filename,运行时错误信息会被输出到这个文件;
- mode,如果是单行代码为 “eval”,多行代码则为 “exec”;
其返回值为 AST 对象。
AST 对象是一个树状结构,每一个 Node 可能会有多个子节点,通过 ast.dump 可以方便的查看 AST 的内部。
import ast
src='''
a = 1
b = 2
c = a + b
'''
ast_node = ast.parse(src, "msg.log", mode="exec")
print(ast.dump(ast_node))
这样就可以得到输出:
Module(body=[Assign(targets=[Name(id='a', ctx=Store())], value=Num(n=1)), Assign(targets=[Name(id='b', ctx=Store())], value=Num(n=2)), Assign(targets=[Name(id='c', ctx=Store())], value=BinOp(left=Name(id='a', ctx=Load()), op=Add(), right=Name(id='b', ctx=Load())))])
优雅的输出 AST
AST 本质上是树状结构的数据,上面的输出不是很方便观察,astpretty 提供了更加优雅的输出。
# 安装
pip install astpretty
只需要将上面代码中的:
print(ast.dump(ast_node))
替换为:
import astpretty
astpretty.pprint(ast_node)
就可以得到更有好的输出;
Module(
body=[
Assign(
lineno=2,
col_offset=0,
targets=[Name(lineno=2, col_offset=0, id='a', ctx=Store())],
value=Num(lineno=2, col_offset=4, n=1),
),
Assign(
lineno=3,
col_offset=0,
targets=[Name(lineno=3, col_offset=0, id='b', ctx=Store())],
value=Num(lineno=3, col_offset=4, n=2),
),
Assign(
lineno=4,
col_offset=0,
targets=[Name(lineno=4, col_offset=0, id='c', ctx=Store())],
value=BinOp(
lineno=4,
col_offset=4,
left=Name(lineno=4, col_offset=4, id='a', ctx=Load()),
op=Add(),
right=Name(lineno=4, col_offset=8, id='b', ctx=Load()),
),
),
],
)
AST 的结构已经跃然纸上了。
研究 AST 有什么用?
AST 是介于源码和 ByteCode 之间的中间状态,在语义上更加接近 VM 的底层,可以精准的控制 Python 代码的最终执行情况,一些应用:
- 如果需要做一个在线执行 Python 的沙盒,出于安全考虑,可以修改用户提交源码的 AST,剔除一些高权限指令;
- 调整 Python 的运算规则,比如禁用对整数除法的结果提升到浮点数。
Python 内置的 compile 函数也接受 AST 对象作为输入,就像接受普通 Python 源码一样,这也意味着调整后的 AST 也可以被直接编译、执行。