Шаг 72.
Задачи ComputerScience на Python.
Кластеризация методом k-средних (общие сведения)

    На этом шаге мы немного поговорим о кластеризации в целом.

    Человечество еще никогда не имело так много данных о столь многочисленных аспектах общественной жизни, как сегодня. Компьютеры отлично справляются с хранением наборов данных, но последние мало что значат для общества, пока не будут проанализированы людьми. Вычислительные методы способны направлять людей по пути извлечения смысла из наборов данных.

    Кластеризация - это вычислительная технология, которая делит все единицы данных из набора на группы. Успешная кластеризация приводит к созданию групп, которые содержат единицы данных, связанные между собой. Для того чтобы выяснить, являются ли эти отношения значимыми, обычно требуется проверка человеком.

    При кластеризации группа, называемая кластером, к которой принадлежит единица данных, не предопределяется, а определяется во время выполнения алгоритма кластеризации. В сущности, целью алгоритма не является размещение какой-либо конкретной единицы данных в каком-либо конкретном кластере на основании некоей заранее известной информации. По этой причине кластеризация считается неконтролируемым методом при машинном обучении. Неконтролируемость можно представить как независимость от чего-то, что известно заранее.

    Кластеризация - это полезная технология, если требуется изучить структуру набора данных, но заранее ничего не известно о ее составных частях. Например, представьте, что у вас есть продуктовый магазин и вы собираете данные о клиентах и их покупках. Чтобы привлечь клиентов в магазин, вы намерены рассылать мобильную рекламу о специальных предложениях в соответствующие дни недели. Можете попробовать кластеризовать данные по дням недели и демографической информации. Возможно, вы найдете кластер, указывающий на то, что молодые покупатели предпочитают делать покупки по вторникам, и тогда сможете использовать данную информацию для показа в этот день рекламы, специально ориентированной на них.

    На следующем шаге мы приведем некоторые предварительные сведения.




Предыдущий шаг Содержание Следующий шаг