Шаг 223.
Глубокое обучение на Python. Продвинутые приемы глубокого обучения ... . Современные архитектурные шаблоны сверточных сетей (общие сведения)

    На этом шаге мы наметим план дальнейшего изложения.

    "Архитектура" модели - это сумма решений, которые применялись при ее создании: использованные слои, их настройки и порядок соединения. Эти решения определяют пространство гипотез модели: пространство возможных функций, параметризованных весами модели, по которым градиентный спуск может выполнять поиск. Так же как при проектировании признаков, хорошее пространство гипотез кодирует имеющиеся знания о задаче и ее решении. Например, использование сверточных слоев предполагает предварительное знание, что соответствующие шаблоны, присутствующие в исходных изображениях, инвариантны в отношении переноса. Для эффективного обучения на данных обязательно нужно делать предположения о том, что вы ищете.

    От архитектуры часто зависит успех или неудача модели. При выборе неправильной архитектуры модель может не добиться высоких показателей, и никакие обучающие данные не спасут ее. И наоборот, хорошая архитектура может ускорить обучение модели и позволит ей эффективно использовать доступные обучающие данные, уменьшая потребность в больших наборах данных. Хорошая архитектура модели уменьшает размер области поиска, или, иными словами, упрощает схождение к оптимальной точке области поиска. По аналогии с проектированием признаков и курированием данных цель архитектуры модели - упростить задачу для градиентного спуска. Помните, что градиентный спуск - довольно глупый поисковый процесс, поэтому ему нужна любая возможная помощь.

    Выбор архитектуры модели - это больше искусство, чем наука. Опытные специалисты могут создавать высококачественные модели с первой попытки, основываясь исключительно на своей интуиции, тогда как новички часто испытывают сложности с разработкой модели, способной к обучению. Ключевое слово здесь - интуиция: никто не сможет четко обосновать, почему та или иная архитектура годится или не годится. Эксперты полагаются на опыт, приобретаемый в процессе решения разнообразных практических задач. В процессе чтения этого издания вы разовьете собственную интуицию. Однако дело не только в ней - хоть в науке глубокого обучения мало чего-то особенного, но, как в любой инженерной дисциплине, есть свои лучшие практики.

    В следующих шагах мы рассмотрим несколько таких практик для архитектуры сверточных сетей, в частности остаточные связи, пакетную нормализацию и раздельные свертки. С их помощью вы сможете создавать высокоэффективные модели распознавания изображений. Мы применим эти практики в нашей задаче классификации изображений кошек и собак.

    Начнем с общей организации архитектуры по формуле "модульность - иерархия - многократное использование" (modularity-hierarchy-reuse, MHR).

    На следующем шаге мы рассмотрим более подробно эту формулу.




Предыдущий шаг Содержание Следующий шаг