На этом шаге мы подведем итог использования рассмотренных алгоритмов кластеризации.
Эти шаги показали, что применение алгоритмов кластеризации с последующей оценкой их результатов является сложной и, как правило, очень полезной процедурой на исследовательском этапе анализа данных. Мы рассмотрели три алгоритма кластеризации:
Каждый из алгоритмов имеет свои преимущества. Алгоритм k-средних позволяет описывать кластеры с помощью их средних значений. Кроме того, его можно рассматривать как декомпозиционный метод, в котором каждая точка данных представлена центром кластера. DBSCAN позволяет определить "шумовые точки", которые не присвоены ни одному кластеру, и он может помочь автоматически определить количество кластеров. В отличие от двух остальных методов он допускает наличие кластеров сложной формы, как мы уже видели на примере набора данных two_moons. Иногда DBSCAN выделяет кластеры, сильно отличающиеся по своим размерам, что может быть как недостатком, так и преимуществом этого алгоритма. Агломеративная кластеризация позволяет построить исчерпывающую иерархию возможных разбиений данных, которую можно легко исследовать с помощью дендрограмм.
На следующем шаге мы рассмотрим выводы и перспективы.