На этом шаге мы наметим план дальнейшего изложения.
Компьютерное зрение - одна из самых первых технологий, где глубокое обучение добилось значительных успехов. Каждый день мы взаимодействуем с моделями компьютерного зрения - через Google Photos, поиск изображений Google, YouTube, видеофильтры в программном обеспечении камер, программные инструменты оптического распознавания текста и множество других приложений. Также эти модели широко используются в передовых исследованиях в сфере автоматического управления транспортными средствами, робототехники, медицинской диагностики с помощью искусственного интеллекта, автоматических систем кассового обслуживания для магазинов и даже автоматизации сельского хозяйства.
Компьютерное зрение - это предметная область, которая послужила толчком к развитию глубокого обучения в период с 2011 по 2015 год. Примерно тогда же модели глубокого обучения для компьютерного зрения - сверточные нейронные сети - стали показывать удивительно хорошие результаты в состязаниях по классификации изображений. Сначала Дэн Киресан победил в двух специализированных соревнованиях (ICDAR 2011, соревнования по распознаванию китайских символов, и IJCNN 2011, соревнования по распознаванию дорожных знаков Германии). Затем произошло еще более значимое событие: осенью 2012 года группа Хинтона выиграла крупномасштабное состязание по визуальному распознаванию изображений из набора ImageNet. После этого начали появляться многообещающие результаты в других задачах компьютерного зрения.
Интересно отметить, что первых успехов было недостаточно, чтобы сделать глубокое обучение популярным, - на это потребовалось несколько лет. Сообщество исследователей технологий компьютерного зрения потратило много лет на разработку методов, не связанных с нейронными сетями, и не было готово в одночасье отказаться от них, только потому что на пороге появилось что-то новое. В 2013 и 2014 годах многие ученые в области компьютерного зрения все еще встречали идею глубокого обучения с большим скептицизмом - и только в 2016 году она наконец заняла доминирующие позиции.
Начиная с этого шага мы будем знакомиться со сверточными нейронными сетями (также известными как convnets) - разновидностью моделей глубокого обучения, почти повсеместно используемой в приложениях компьютерного зрения (распознавания образов). Здесь вы научитесь применять сверточные нейронные сети для решения задач классификации изображений, в частности задач с небольшими наборами обучающих данных, которые являются наиболее распространенными (если только вы не работаете в крупной технологической компании).
На следующем шаге мы рассмотрим введение в сверточные нейронные сети.