На этом шаге мы попытаемся в общем ответить на этот вопрос.
Помните метафору скомканного листа бумаги из 46 шага? Лист бумаги - это двумерное многообразие в трехмерном пространстве (рисунок 1).
Рис.1. Разглаживание смятого комка исходных данных
Модель глубокого обучения - инструмент для распутывания бумажных шариков (то есть скрытых многообразий).
Модель глубокого обучения - это, по сути, многомерная кривая, обязательно гладкая и непрерывная (с дополнительными ограничениями на структуру, обусловленными архитектурой модели), раз она должна быть дифференцируемой. И эта кривая подгоняется под точки данных с помощью метода градиентного спуска, плавно и постепенно. По самой своей природе глубокое обучение заключается в том, чтобы взять сложную кривую - многообразие - и постепенно корректировать ее параметры, пока она не будет соответствовать некоторым точкам обучающих данных.
Кривая имеет достаточно параметров, чтобы соответствовать чему угодно - действительно, если позволить модели обучаться достаточно долго, она закончит тем, что просто запомнит обучающие данные и вообще лишится общности. Однако обучающие данные состоят не из изолированных точек, редко разбросанных по основному пространству, - они образуют хорошо структурированное многообразие меньшей размерности во входном пространстве (это и есть гипотеза многообразия). И поскольку подгонка кривой к данным происходит постепенно, то во время обучения найдется промежуточная точка, в которой модель будет близко аппроксимировать естественное множество данных (рисунок 2).
Рис.1. Переход от случайной модели к переобученной через промежуточную точку надежного обучения
Движение по кривой, полученной моделью в этой точке, будет близко к движению по фактическому скрытому многообразию - модель будет способна интерпретировать новые данные, которые прежде не видела, интерполируя их между обучающими входными данными.
Помимо тривиального факта, что у моделей глубокого обучения есть достаточная репрезентативная мощность, они обладают еще несколькими свойствами, которые делают их пригодными для изучения скрытых многообразий:
На следующем шаге мы рассмотрим, каково влияние обучающих данных.