На этом шаге мы рассмотрим постановку задачи.
Давайте применим алгоритмы k-средних, DBSCAN и агломеративной кластеризации к набору данных Labeled Faces in the Wild и посмотрим, сможет ли какой-либо из этих алгоритмов найти интересную структуру. Мы воспользуемся собственными векторами (собственными лицами), вычисленными для всего набора изображений лиц при помощью PCA(whiten=True), выделялось 100 компонент:
[In 70]: # извлекаем собственные лица для набора данных lfw и преобразуем данные from sklearn.decomposition import PCA pca = PCA(n_components=100, whiten=True, random_state=0) pca.fit_transform(X_people) X_pca = pca.transform(X_people)
Ранее мы видели, что данная операция позволяет получить более содержательную информацию об изображениях лиц в отличие от исходных пикселей. Кроме того, она позволяет увеличить скорость вычислений. Здесь будет полезно запустить алгоритмы на исходных данных, без применения PCA, и выяснить, смогли ли алгоритмы выделить аналогичные кластеры.
На следующем шаге мы рассмотрим анализ набора изображений лиц с помошью алгоритма DBSCAN.