Шаг 111.
Введение в машинное обучение с использованием Python. Методы машинного обучения без учителя ... . Кластеризация. Выводы по методам кластеризации

    На этом шаге мы подведем итог использования рассмотренных алгоритмов кластеризации.

    Эти шаги показали, что применение алгоритмов кластеризации с последующей оценкой их результатов является сложной и, как правило, очень полезной процедурой на исследовательском этапе анализа данных. Мы рассмотрели три алгоритма кластеризации:

Все три алгоритма имеют возможность настраивать гранулярность кластеризации. Алгоритмы k-средних и агломеративной кластеризации позволяют задать нужное количество кластеров, в то время как DBSCAN позволяет задать близость между точками с помощью параметра ets, который косвенно влияет на размер кластера. Все три метода могут быть использованы на больших реальных наборах данных, имеют относительно простую интепретацию и допускают разбиение на большое количество кластеров.

    Каждый из алгоритмов имеет свои преимущества. Алгоритм k-средних позволяет описывать кластеры с помощью их средних значений. Кроме того, его можно рассматривать как декомпозиционный метод, в котором каждая точка данных представлена центром кластера. DBSCAN позволяет определить "шумовые точки", которые не присвоены ни одному кластеру, и он может помочь автоматически определить количество кластеров. В отличие от двух остальных методов он допускает наличие кластеров сложной формы, как мы уже видели на примере набора данных two_moons. Иногда DBSCAN выделяет кластеры, сильно отличающиеся по своим размерам, что может быть как недостатком, так и преимуществом этого алгоритма. Агломеративная кластеризация позволяет построить исчерпывающую иерархию возможных разбиений данных, которую можно легко исследовать с помощью дендрограмм.

    На следующем шаге мы рассмотрим выводы и перспективы.




Предыдущий шаг Содержание Следующий шаг