09月17, 2020

43. Dict 的缓存技术

Python 中大量使用了小 Dict 对象,与前面提到的一些基本类型类似,除了利用内存池提高内存分配的效率,Dict 也实现了 Dict 结构体的缓存池,实现对 Dict 结构体的复用,其定义:

// Objects/dictobject.c:250

/* Dictionary reuse scheme to save calls to malloc and free */
#ifndef PyDict_MAXFREELIST
#define PyDict_MAXFREELIST 80
#endif
static PyDictObject *free_list[PyDict_MAXFREELIST];
static int numfree = 0;
static PyDictKeysObject *keys_free_list[PyDict_MAXFREELIST];
static int numfreekeys = 0;

可以看到 Dict 的实现中对 PyDictObject 和 PyDictKeysObject 都进行的缓存,下面仅以 PyDictObject 为例。

根据注释也可以很清楚的看到,free_list 是全局数组,一些符合条件的 Dict 会被保存在这里,等待再次利用,减少内存操作。这个缓存池的大小是 80。C 语言的全局变量是自动初始化为 0,所以在最开始的时候,free_list 里面没有挂载任何有效的 Dict 结构体指针。变量 numfree 记录的是 free_list 中已经缓存的对象数量,由于 C 语言数组从 0 开始索引,所以 free_list[numfree] 刚好是下一个空闲位置。

image.png

在创建 Dict 对象的时候,会优先从缓存中获取可利用的内存;

static PyObject *
new_dict(PyDictKeysObject *keys, PyObject **values)
{
    PyDictObject *mp;
    assert(keys != NULL);
    if (numfree) {
        mp = free_list[--numfree];
        assert (mp != NULL);
        assert (Py_TYPE(mp) == &PyDict_Type);
        _Py_NewReference((PyObject *)mp);
    }
   // ··· ···

当然,在天地初开之时 free_list 里空空如也,numfree 就是个大零蛋,那就之后老老实实的去申请内存了。当 Python 运行起来之后,很快就会迎来第一个 Dict 的释放:

static void
dict_dealloc(PyDictObject *mp)
{
    // ··· ··· 先妥善处理 Dict 的 keys、values

    // 如果 freelist 还没有满,就将当前对象纳入缓存
    if (numfree < PyDict_MAXFREELIST && Py_TYPE(mp) == &PyDict_Type)
        free_list[numfree++] = mp;
    else
        // 否则,内存 free,实际上这里的 free 还是要经过内存池,不一定是系统调用。
        Py_TYPE(mp)->tp_free((PyObject *)mp);
    Py_TRASHCAN_END
}

当释放了一个 Dict 对象时,缓存看起来这样:

image.png

这样下次调用 new_dict 的时候就可以从缓存中获取 PyDictObject 了。

PyDictKeyObject 的缓存过程类似,它有可能在 free_keys_object 或者 dictresize 的时候进行缓存。Python 在缓存上的心思真的是无处不在。

本文链接:http://www.thinkinpython.com/post/deep_python_vm_43.html

-- EOF --