1.15 通过某个栏位将记录分组-编程知识-白鹭情

问题描述

你有一个字典或实体的序列，然后你想根据某个特定栏位来分组迭代访问，

解决方案

itertools.groupby()函式对于这样的资料分组操作非常实用：

from itertools import groupby
from operator import itemgetter

rows = [
    {'address': '5412 N CLARK', 'date': '07/01/2012'},
    {'address': '5148 N CLARK', 'date': '07/02/2012'},
    {'address': '5148 N CLARK', 'date': '07/02/2012'},
    {'address': '2122 N CLARK', 'date': '07/03/2012'},
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
    {'address': '1060 W ADDISON', 'date': '07/02/2012'},
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
]

# 先看一下直接对rows使用groupby()函式的效果
for date, item in groupby(rows):
    print(date)
    for i in item:
        print(' ', i)
"""输出结果：
{'address': '5412 N CLARK', 'date': '07/01/2012'}
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '5148 N CLARK', 'date': '07/02/2012'}
  {'address': '5148 N CLARK', 'date': '07/02/2012'}
  {'address': '5148 N CLARK', 'date': '07/02/2012'}
{'address': '2122 N CLARK', 'date': '07/03/2012'}
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
{'address': '1060 W ADDISON', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
"""

# 添加key自变量指定回传值
for date, item in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in item:
        print(' ', i)
"""输出结果：
07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
07/02/2012
  {'address': '5148 N CLARK', 'date': '07/02/2012'}
  {'address': '5148 N CLARK', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/02/2012
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/01/2012
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/04/2012
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
"""

# 将rows排序后，再通过key自变量指定回传值
rows.sort(key=itemgetter('date'))
for date, item in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in item:
        print(' ', i)
"""输出结果：
07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
  {'address': '5148 N CLARK', 'date': '07/02/2012'}
  {'address': '5148 N CLARK', 'date': '07/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
"""

讨论

groupby()函式扫描整个序列并且查找连续相同的值（或者根据指定key函式回传值相同）的元素序列，在每次迭代的时候，它会回传一个值和一个迭代器物件，这个迭代器物件可以生成该回传值所在的物件，

如果你只是想将根据date栏位将资料分组到一个大的资料结构中，并且允许随机访问，那么可以使用defaultdict()构建一个多值字典（关于多值字典在1.6小节已经做过介绍），比如：

from collections import defaultdict
rows_by_date = defaultdict(list)
for row in rows:
	rows_by_date[row['date']].append(row)

for r in rows_by_date['07/01/2012']:
	print(r)
"""输出结果：
{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}
"""

1.15 通过某个栏位将记录分组

问题描述

解决方案

讨论

0 评论

发表评论

最新文章

斥350亿美元建新航厦，迪拜将打造世界最大机场

Windows系统安装最详细教程，基于U盘方式

分手后仍难以与前任断绝联系的三大星座，纠缠不清的情感纠葛！

优秀的女人，必须坚持的11个生活习惯！

此刻，像宋人一样热爱生活！

唐诗中描写爱情的6句诗，最深的情遇到最美的诗！

随机推荐

Java中的AbstractMethodError

使用Maven生成WSDL存根

Apache Commons Collections与Google Guava

数据库存储文件并且进行索引

使用JMeter进行分布式性能测试

Java中的transient关键字

热门分类

热门标签

Java中的AbstractMethodError

使用Maven生成WSDL存根

Apache Commons Collections与Google Guava

1.15 通过某个栏位将记录分组

问题描述

解决方案

讨论

用 Python 库 PySimpleGUI...

【我的2021年终总结】面试分享：渣本半年经...

0 评论

发表评论

最新文章

随机推荐

热门分类

热门标签