问题描述
你有一个字典或实体的序列,然后你想根据某个特定栏位来分组迭代访问,
解决方案
itertools.groupby()
函式对于这样的资料分组操作非常实用:
from itertools import groupby
from operator import itemgetter
rows = [
{'address': '5412 N CLARK', 'date': '07/01/2012'},
{'address': '5148 N CLARK', 'date': '07/02/2012'},
{'address': '5148 N CLARK', 'date': '07/02/2012'},
{'address': '2122 N CLARK', 'date': '07/03/2012'},
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
{'address': '1060 W ADDISON', 'date': '07/02/2012'},
{'address': '4801 N BROADWAY', 'date': '07/01/2012'},
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
]
# 先看一下直接对rows使用groupby()函式的效果
for date, item in groupby(rows):
print(date)
for i in item:
print(' ', i)
"""输出结果:
{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '5148 N CLARK', 'date': '07/02/2012'}
{'address': '5148 N CLARK', 'date': '07/02/2012'}
{'address': '5148 N CLARK', 'date': '07/02/2012'}
{'address': '2122 N CLARK', 'date': '07/03/2012'}
{'address': '2122 N CLARK', 'date': '07/03/2012'}
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
{'address': '1060 W ADDISON', 'date': '07/02/2012'}
{'address': '1060 W ADDISON', 'date': '07/02/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
"""
# 添加key自变量指定回传值
for date, item in groupby(rows, key=itemgetter('date')):
print(date)
for i in item:
print(' ', i)
"""输出结果:
07/01/2012
{'address': '5412 N CLARK', 'date': '07/01/2012'}
07/02/2012
{'address': '5148 N CLARK', 'date': '07/02/2012'}
{'address': '5148 N CLARK', 'date': '07/02/2012'}
07/03/2012
{'address': '2122 N CLARK', 'date': '07/03/2012'}
07/02/2012
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
{'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/01/2012
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/04/2012
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
"""
# 将rows排序后,再通过key自变量指定回传值
rows.sort(key=itemgetter('date'))
for date, item in groupby(rows, key=itemgetter('date')):
print(date)
for i in item:
print(' ', i)
"""输出结果:
07/01/2012
{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
{'address': '5148 N CLARK', 'date': '07/02/2012'}
{'address': '5148 N CLARK', 'date': '07/02/2012'}
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
{'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
{'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
"""
讨论
groupby()
函式扫描整个序列并且查找连续相同的值(或者根据指定key函式回传值相同)的元素序列,在每次迭代的时候,它会回传一个值和一个迭代器物件,这个迭代器物件可以生成该回传值所在的物件,
如果你只是想将根据date栏位将资料分组到一个大的资料结构中,并且允许随机访问,那么可以使用defaultdict()
构建一个多值字典(关于多值字典在1.6小节已经做过介绍),比如:
from collections import defaultdict
rows_by_date = defaultdict(list)
for row in rows:
rows_by_date[row['date']].append(row)
for r in rows_by_date['07/01/2012']:
print(r)
"""输出结果:
{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}
"""
0 评论