Шаг 128.
Глубокое обучение на Python. Основы машинного обучения. Обобщение ... . Природа общности в глубоком обучении. Почему работает глубокое обучение

    На этом шаге мы попытаемся в общем ответить на этот вопрос.

    Помните метафору скомканного листа бумаги из 46 шага? Лист бумаги - это двумерное многообразие в трехмерном пространстве (рисунок 1).


Рис.1. Разглаживание смятого комка исходных данных

    Модель глубокого обучения - инструмент для распутывания бумажных шариков (то есть скрытых многообразий).

    Модель глубокого обучения - это, по сути, многомерная кривая, обязательно гладкая и непрерывная (с дополнительными ограничениями на структуру, обусловленными архитектурой модели), раз она должна быть дифференцируемой. И эта кривая подгоняется под точки данных с помощью метода градиентного спуска, плавно и постепенно. По самой своей природе глубокое обучение заключается в том, чтобы взять сложную кривую - многообразие - и постепенно корректировать ее параметры, пока она не будет соответствовать некоторым точкам обучающих данных.

    Кривая имеет достаточно параметров, чтобы соответствовать чему угодно - действительно, если позволить модели обучаться достаточно долго, она закончит тем, что просто запомнит обучающие данные и вообще лишится общности. Однако обучающие данные состоят не из изолированных точек, редко разбросанных по основному пространству, - они образуют хорошо структурированное многообразие меньшей размерности во входном пространстве (это и есть гипотеза многообразия). И поскольку подгонка кривой к данным происходит постепенно, то во время обучения найдется промежуточная точка, в которой модель будет близко аппроксимировать естественное множество данных (рисунок 2).


Рис.1. Переход от случайной модели к переобученной через промежуточную точку надежного обучения

    Движение по кривой, полученной моделью в этой точке, будет близко к движению по фактическому скрытому многообразию - модель будет способна интерпретировать новые данные, которые прежде не видела, интерполируя их между обучающими входными данными.

    Помимо тривиального факта, что у моделей глубокого обучения есть достаточная репрезентативная мощность, они обладают еще несколькими свойствами, которые делают их пригодными для изучения скрытых многообразий:

    На следующем шаге мы рассмотрим, каково влияние обучающих данных.




Предыдущий шаг Содержание Следующий шаг