На этом шаге мы вернемся к истокам нейронных сетей.
Ранние версии нейронных сетей сегодня полностью вытеснены актуальными вариантами (о которых здесь идет речь), но будет полезно знать и о корнях глубокого обучения. Основные идеи нейронных сетей в упрощенном виде были исследованы еще в 1950-х годах. Долгое время развитие этого подхода тормозилось из-за отсутствия эффективного способа обучения больших нейронных сетей. Но ситуация изменилась в середине 1980-х, когда несколько исследователей независимо друг от друга вновь открыли алгоритм обратного распространения ошибки - способ обучения цепочек параметрических операций с использованием метода градиентного спуска (далее мы дадим точные определения этим понятиям) - и начали применять его к нейронным сетям.
Первое успешное практическое применение нейронных сетей датируется 1989 годом, когда Ян Лекун в Bell Labs объединил ранние идеи сверточных нейронных сетей и обратного распространения ошибки и использовал их для решения задачи распознавания рукописных цифр. Получившаяся в результате нейронная сеть была названа LeNet и была внедрена почтовой службой США в 1990-х для автоматического распознавания почтовых индексов на конвертах.
На следующем шаге мы рассмотрим ядерные методы.