На этом шаге мы рассмотрим способы решения этой задачи.
У вас есть последовательность словарей или экземпляров, и вы хотите итерировать по данным, сгруппированным по значению конкретного поля (например, по дате).
Функция itertools.groupby() особенно полезна для такого типа группирования данных. Предположим, что у вас есть список словарей:
>>> rows = [
{'address': '5412 N CLARK', 'date': '07/01/2012'},
{'address': '5148 N CLARK', 'date': '07/04/2012'},
{'address': '5800 E 58TH', 'date': '07/02/2012'},
{'address': '2122 N CLARK', 'date': '07/03/2012'},
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
{'address': '1060 W ADDISON', 'date': '07/02/2012'},
{'address': '4801 N BROADWAY', 'date': '07/01/2012'},
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]
Предположим также, что вы хотите проитерировать по группам данных, объединенных общей датой. Проведем сортировку по нужному полю (в данном случае по дате), а потом применим itertools.groupby():
>>> from operator import itemgetter >>> from itertools import groupby >>> # Сначала сортируем по нужным полям >>> rows.sort(key=itemgetter('date')) >>> # Итерируем в группах >>> for date, items in groupby(rows, key=itemgetter('date')): print(date) for i in items: print(' ', i)
Вывод будет таким:
07/01/2012
{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
{'address': '5800 E 58TH', 'date': '07/02/2012'}
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
{'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
{'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
{'address': '5148 N CLARK', 'date': '07/04/2012'}
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
>>>
Функция groupby() работает так: сканирует последовательность и ищет последовательные "партии" одинаковых значений (или значений, возвращенных переданной через key функцией). В каждой итерации функция возвращает значение вместе с итератором, который выводит все элементы в группу с одинаковым значением.
Важным предварительным шагом тут является сортировка данных по интересующему нас полю. Поскольку groupby() проверяет только последовательные элементы, без предварительной сортировки группировка записей выполнена не будет.
Если ваша цель - просто сгруппировать данные вместе в крупную структуру данных с произвольным доступом, то вам больше поможет функция defaultdict(), которая создает "мультисловарь", как было описано на 7 шаге. Например:
>>> from collections import defaultdict >>> rows_by_date = defaultdict(list) >>> for row in rows: rows_by_date[row['date']].append(row)
Это позволяет легко получить доступ к записям для каждой даты:
>>> for r in rows_by_date['07/01/2012']: print(r) {'address': '5412 N CLARK', 'date': '07/01/2012'} {'address': '4801 N BROADWAY', 'date': '07/01/2012'} >>>
В последнем примере предварительная сортировка записей не обязательна. Но если вы не заботитесь о потреблении памяти, то может оказаться быстрее сделать это с помощью предварительной сортировки и итерирования с использованием groupby().
На следующем шаге мы рассмотрим фильтрацию элементов последовательности.