Шаг 16.
Python: сборник рецептов.
Структуры данных и алгоритмы. Группирование записей на основе полей

    На этом шаге мы рассмотрим способы решения этой задачи.

Задача

    У вас есть последовательность словарей или экземпляров, и вы хотите итерировать по данным, сгруппированным по значению конкретного поля (например, по дате).

Решение

    Функция itertools.groupby() особенно полезна для такого типа группирования данных. Предположим, что у вас есть список словарей:

>>> rows = [
	{'address': '5412 N CLARK', 'date': '07/01/2012'},
	{'address': '5148 N CLARK', 'date': '07/04/2012'},
	{'address': '5800 E 58TH', 'date': '07/02/2012'},
	{'address': '2122 N CLARK', 'date': '07/03/2012'},
	{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
	{'address': '1060 W ADDISON', 'date': '07/02/2012'},
	{'address': '4801 N BROADWAY', 'date': '07/01/2012'},
	{'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
	]

    Предположим также, что вы хотите проитерировать по группам данных, объединенных общей датой. Проведем сортировку по нужному полю (в данном случае по дате), а потом применим itertools.groupby():

>>> from operator import itemgetter
>>> from itertools import groupby
>>> # Сначала сортируем по нужным полям
>>> rows.sort(key=itemgetter('date'))
>>> # Итерируем в группах
>>> for date, items in groupby(rows, key=itemgetter('date')):
	print(date)
	for i in items:
		print(' ', i)

    Вывод будет таким:

07/01/2012
  {'address': '5412 N CLARK', 'date': '07/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
  {'address': '5800 E 58TH', 'date': '07/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
  {'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
  {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
  {'address': '5148 N CLARK', 'date': '07/04/2012'}
  {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
>>> 


Обсуждение

    Функция groupby() работает так: сканирует последовательность и ищет последовательные "партии" одинаковых значений (или значений, возвращенных переданной через key функцией). В каждой итерации функция возвращает значение вместе с итератором, который выводит все элементы в группу с одинаковым значением.

    Важным предварительным шагом тут является сортировка данных по интересующему нас полю. Поскольку groupby() проверяет только последовательные элементы, без предварительной сортировки группировка записей выполнена не будет.

    Если ваша цель - просто сгруппировать данные вместе в крупную структуру данных с произвольным доступом, то вам больше поможет функция defaultdict(), которая создает "мультисловарь", как было описано на 7 шаге. Например:

>>> from collections import defaultdict
>>> rows_by_date = defaultdict(list)
>>> for row in rows:
	rows_by_date[row['date']].append(row)

    Это позволяет легко получить доступ к записям для каждой даты:

>>> for r in rows_by_date['07/01/2012']:
	print(r)

	
{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}
>>> 

    В последнем примере предварительная сортировка записей не обязательна. Но если вы не заботитесь о потреблении памяти, то может оказаться быстрее сделать это с помощью предварительной сортировки и итерирования с использованием groupby().

    На следующем шаге мы рассмотрим фильтрацию элементов последовательности.




Предыдущий шаг Содержание Следующий шаг