Python迭代器实现原理

Python在进行循环的时候产生迭代器，它没有类似其它语言中的for循环，只能通过for ... in的方式进行循环遍历。最典型的应用就是通过range函数产生一个列表，然后用for in进行操作，如下:

#!/usr/bin/env python
for i in range(10):
    print i

代码的意义很好理解，range会产生一个列表，用for ... in最这个列表进行遍历，就有和类似for(i = 0;i<n;i++)同样的效果，range函数的详解可以看这里

问题又来了，range这个对象会产生一个列表，那么这个列表的内容都是存放在内存当中的，当需要的循环数量太大时，是相当占用内存的, 为了统计使用range占用内存的情况，我做了6次使用，分别用range产生100，10000，100000，1000000，10000000,100000000长度的列表，然后统计内存的占用:

测试代码	占用内存
range(100)	2.0MB
range(10000)	2.2MB
range(100000)	3.8MB
range(1000000)	19.5MB
range(10000000)	168.5MB
range(100000000)	1465.8MB

上表可以看到，随着基数的加大，占用内存呈几何倍数增加，显然在进行大循环操作的时候，要避免使用range。

为了解决上述问题，python提供了另外一个函数xrange，这个函数和range非常相似，但是占用内存比range会小很多，相关的说明可以查看这里

经过测试，用xrange产生的对象，不管参数是多少，占用内存几乎都没有变化。问题又来了，xrange内部是如何实现的，为什么和range性能相差这么大？

为了验证我的猜想，先尝试用python实现类似xrange的函数zrange:

#!/usr/bin/env python
class zrange(object):
  def __init__(self,stop):
    self.__pointer=0
    self.stop=stop
  def __iter__(self):  
    return self  
  def next(self): #python3.0中，改用__next__
    if self.__pointer  >= self.stop:
      raise StopIteration
    else:
      self.__pointer = self.__pointer + 1
      return self.__pointer-1
test = zrange(10000000)
for i in test:
  print i

运行的结果和xrange一样，对zrange进行内存占用测试，发现和xrange一样，参数的大小对内存占用几乎没有影响。那么它和range的区别在哪里呢？

前面说到，range产生的是一个列表，而无论是自定义的zrange还是系统内置的xrange产生的都是一个对象，像xrange或者zrange产生的对象，就叫做 可迭代对象 , 它给外部提供了一种遍历其内部元素，而不用关心其内部实现的方法。上面zrange的实现中, 最关键的实现是建立了一个内部指针__pointer, 它记录当前的访问的位置, 下次的访问就可以通过指针的状态进行相应的操作。

Python或者其它语言中，还有很多类似通过迭代的方式访问对象内容的，如读取一个文件中的内容:

#!/usr/bin/env python
f = open('zrange.py','r')
while True:
    line = f.readline()
    if not line:
        break
    print line.strip()
f.close()

大家都知道用readline要比reandlines节省资源，其实readline和readlines就类似于xrange和range，一个是通过指针记录当前位置，下次访问把指针往前移动一个单位，另外一个是直接把所有内容存放到内存当中。

文件操作函数中，还可以通过seek手动的调整指针的位置，从而达到跳过或者重复读取某些内容的目的。可以说，迭代器的实现中，其内部指针是节省资源，让迭代正常运行的关键。

米扑博客

Most Valuable Package of Mobile Internet

标签云

打赏赞助

访客统计

分类

归档

友情链接

Python迭代器实现原理

发表评论