在阅读本文前,先来测试一下对切片的掌握情况吧,尝试回答下面几个问题:
1 | a = [1, 2, 3, 4, 5] |
- 获取 [2, 3, 4]
- 获取 [2, 4]
- 获取 [5, 3, 1]
- a[:-1] = ?
- a[::-1] = ?
- a[-1:-2] = ?
- a[6:-1] = ?
- a[:-1:-1] = ?
- a[1:-1:0] = ?
- 切片返回的是序列的深拷贝还是浅拷贝?
如果在不借助 Python 解释器的情况下你能很快的说出答案,那说明你已经对切片掌握的不错了。相信还是有很多人不能完全解答出来或者对其中的一个或者多个不完全确定。没关系,这篇文章我们就一起来从底层实现层面来彻底掌握切片机制,学完再回过头来看相信这些就不再是问题了。
从字节码看起
1 | In [1]: def test(): |
这段字节码分为俩个部分,上半部分构建列表 a,下半部分通过对 a 切片得到列表 b。和本文主题相关的俩个字节码指令就在下半部分,它们是:
- BUILD_SLICE
- BINARY_SUBSCR
BUILD_SLICE
1 | 16 LOAD_CONST 1 (1) |
在执行 BUILD_SLICE 之前,解释器将 slice 的俩个关键参数 start 和 stop 压入栈,然后执行 BUILD_SLICE 指令,注意,这里传入的参数是 2。2 代表构建 slice 对象的参数只有两个,也就是说并没有是指定第三个参数 step。
1 | TARGET(BUILD_SLICE) { |
这段代码比较简单,首先根据传入的参数个数判断 slice 有没有第三个参数 step ,有的话它在 BUILD_SLICE 之前肯定是最后一个被压入栈的,现在从栈中取出的第一个就是 step,没有的话,step 被设为 NULL。然后,继续取出 start 和 stop,将这三个参数传入 PySlice_New
函数创建一个 slice 对象,再将这个对象放回栈中。
我们可以来看一下 slice 对象到底是什么了:
1 | typedef struct { |
现在明白了吧,slice 对象就是一个记录了 start,stop,step 值(对象)的一个 Python 对象,它的创建过程如下:
1 | static PySliceObject *slice_cache = NULL; |
现在我们明白了一点,当我们对一个序列进行切片时,解释器会根据传入的 start,stop,step 创建一个 slice 对象,slice 对象和你要切片的原序列并没有直接的关系。
Python 提供了 slice
内建函数来创建 slice 对象:
1 | In [68]: s = slice(1, -1, 2) |
下面的俩种获取切片的方式是等价的:
1 | In [73]: a = [1, 2, 3, 4, 5] |
BINARY_SUBSCR
这个指令翻译过来叫二元下标, a[0] 这种方式是一元下标,可以猜测一下,通过 slice 对象对序列切片和通过 index 对序列取值直接是不是有什么联系呢?我们继续往下看源码:
1 | TARGET(BINARY_SUBSCR) { |
这里从栈中取出来给 sub 的对象就是我们前面构建的 slice 对象,而 container 对象就是我们要切片的原列表,它们被传给了 PyObject_GetItem
。
答案是不是呼之欲出了?二元下标也就是切片是通过 PyObject_GetItem
这个函数处理的,它也是用来处理一元下标的!
1 | PyObject * |
PyObject_GetItem
是用来实现多态的,它根据要切片对象的不同,调用对象的特定函数做出不同的处理。我们后面会讲在列表列表的处理,现在我们需要明白,序列的下标可以是 int 对象或者是 slice 对象,处理它们的函数接口是一样的。
1 | In [76]: a = [1, 2, 3, 4, 5] |
切片参数的处理
start 、stop 和 step 的值可以是整数,可以是负数,start 和 stop 的值还可能超过列表的长度,对于特殊 step、stop 值的处理也就决定了切片的结果,而这些处理正是在PySlice_GetIndicesEx
这个函数中完成的,理解切片行为的核心就是要理解这个函数的逻辑。我们拆开来看这个函数是怎么处理 start stop step 的。
- step 的处理
1 | if (r->step == Py_None) { |
- start 的处理
1 | /* 当 start 未设置时的默认值,length 是序列的长度 |
- stop 的处理
1 | /* 当 stop 未设置时的默认值,length 是序列的长度 |
- slicelength 的处理,slicelength 是切片结果的长度
1 | /* 如:a[6:1] 处理后 start = 6 stop = 1 start > stop |
记住几点:
- 切片结果是通过 start、stop 处理后的值决定的,从 start 开始止于 stop 不包括 stop,[start, stop)
- 如果 step > 0,从 start 位置往后,每 step 取一个值,如果 start >= stop,结果为空
- 如果 step < 0,从 start 位置往前,每 step 取一个值,如果 start <= stop,结果为空
- start 或 stop 为负数时,如果绝对值在 length 内,那么和 length + start 或 stop 等价
- start 或 stop 为负数时,如果绝对值超过 length ,那么就要根据切片方向将 start 或 stop 转换为边界值
列表切片
切片可以作用于所有序列对象:列表,字符串,元组。我们日常最常用的就是列表切片,这里就深入看下列表切片的处理,其他俩种处理方式应该也类似。
1 | static PyMappingMethods list_as_mapping = { |
深入到 list 对象的源码后发现, o->ob_type->tp_as_mapping->mp_subscript
(回看 PyObject_GetItem 的逻辑)和 list.__getitem__
都指向了同一个函数——list_subscript
,list 的切片正是在这里处理的:
1 | static PyObject *list_subscript(PyListObject* self, PyObject* item) |
其中的 list_slice
函数像是 list_subscript
当 step 等于 1 时的简化版:
1 | static PyObject * |
总结
本文从源码层面剖析了什么是 slice 对象,切片中对 start、stop、step 值的处理,及虚拟机生成一个列表切片的整个过程。弄懂了 Python 对 start、stop、step 的处理逻辑后,文章开始处的几道题也就不能得出答案了。