На этом шаге мы немного поговорим о кластеризации в целом.
Человечество еще никогда не имело так много данных о столь многочисленных аспектах общественной жизни, как сегодня. Компьютеры отлично справляются с хранением наборов данных, но последние мало что значат для общества, пока не будут проанализированы людьми. Вычислительные методы способны направлять людей по пути извлечения смысла из наборов данных.
Кластеризация - это вычислительная технология, которая делит все единицы данных из набора на группы. Успешная кластеризация приводит к созданию групп, которые содержат единицы данных, связанные между собой. Для того чтобы выяснить, являются ли эти отношения значимыми, обычно требуется проверка человеком.
При кластеризации группа, называемая кластером, к которой принадлежит единица данных, не предопределяется, а определяется во время выполнения алгоритма кластеризации. В сущности, целью алгоритма не является размещение какой-либо конкретной единицы данных в каком-либо конкретном кластере на основании некоей заранее известной информации. По этой причине кластеризация считается неконтролируемым методом при машинном обучении. Неконтролируемость можно представить как независимость от чего-то, что известно заранее.
Кластеризация - это полезная технология, если требуется изучить структуру набора данных, но заранее ничего не известно о ее составных частях. Например, представьте, что у вас есть продуктовый магазин и вы собираете данные о клиентах и их покупках. Чтобы привлечь клиентов в магазин, вы намерены рассылать мобильную рекламу о специальных предложениях в соответствующие дни недели. Можете попробовать кластеризовать данные по дням недели и демографической информации. Возможно, вы найдете кластер, указывающий на то, что молодые покупатели предпочитают делать покупки по вторникам, и тогда сможете использовать данную информацию для показа в этот день рекламы, специально ориентированной на них.
На следующем шаге мы приведем некоторые предварительные сведения.