На этом шаге мы рассмотрим основы работы с такими данными.
Рассмотрим работу с категориальными данными на примере набора iris (Ирисы Фишера):
iris = sns.load_dataset()
# iris.head()
pprint.pprint(iris) # Вывод набора данных
Рис.1. Набор данных iris
Загруженный набор данных является эталонным для изучения алгоритмов классификации, он представляет собой информацию о 150 экземплярах ириса по 50 на каждый отдельный вид:
Для каждого экземпляра определены следующие параметры:
Для визуализации этого набора воспользуемся функцией catplot():
import matplotlib.pyplot as plt import pandas as pd import numpy as np import seaborn as sns import pprint iris = sns.load_dataset() # iris.head() pprint.pprint(iris) # Вывод набора данных sns.catplot(x="species", y="sepal_length", kind="swarm", data=iris); plt.show()
Результат работы приложения изображен на рисунке 2.
Рис.2. Демонстрация работы функции catplot()
При работе с категориальными данными часто используется диаграмма "ящик с усами", она строится с помощью функции boxplot():
import matplotlib.pyplot as plt import pandas as pd import numpy as np import seaborn as sns import pprint iris = sns.load_dataset() # iris.head() pprint.pprint(iris) # Вывод набора данных sns.boxplot(x="species", y="sepal_length", data=iris) plt.show()
Результат работы приложения изображен на рисунке 3.
Рис.3. Демонстрация работы функции boxplot()
На этом закончим краткий обзор библиотеки Seaborn. Ключевая её особенность состоит в том, что, используя минимум настроек, можно получить графики и диаграммы с прекрасным визуальным оформлением. Далее мы подробно рассмотрим инструменты для визуализации данных и настройки внешнего вида графиков, которые предоставляет Seaborn.
Со следующего шага мы начнем рассматривать настройку внешнего вида графиков.