Шаг 126.
Глубокое обучение на Python. Основы машинного обучения. Обобщение ... . Природа общности в глубоком обучении. Гипотеза многообразия

    На этом шаге мы рассмотрим, что представляет собой эта гипотеза.

    На вход классификатора MNIST подается массив (до предварительной обработки) 28 * 28 целых чисел со значениями от 0 до 255. То есть общее количество возможных входных значений составляет 256 в степени 784 (что намного больше количества атомов во Вселенной). Однако очень немногие из этих входных массивов будут выглядеть как образцы рукописных цифр в MNIST: изображения рукописных цифр занимают лишь малую подобласть в пространстве всех возможных массивов 28 * 28 значений uint8. Более того, данная область хорошо структурирована: это не просто набор точек, хаотично разбросанных в родительском пространстве.

    Прежде всего, область изображений рукописных цифр является непрерывной: если взять образец и немного изменить его, он все равно будет распознаваться как та же рукописная цифра. Кроме того, все образцы в этой области связаны плавными переходами. То есть для двух случайных цифр A и B из набора MNIST существует последовательность промежуточных изображений, иллюстрирующая такое превращение A в B, что любые две соседние цифры в этой последовательности будут выглядеть очень близкими друг к другу (рисунок 1).


Рис.1. Изображения разных цифр через серию шагов можно превратить друг в друга. Это показывает, что пространство рукописных цифр образует "многообразие"

    Возможно, рядом с границей, разделяющей два класса, появится несколько неоднозначных изображений, но даже они будут очень похожими на цифры.

    С технической точки зрения можно сказать, что рукописные цифры образуют многообразие (manifold) в пространстве возможных массивов 28 * 28 значений uint8. Звучит мудрено, но сама идея довольно проста. Многообразие - это подобласть меньшей размерности в некотором родительском пространстве, которое похоже на линейное (евклидово) пространство. Например, гладкая кривая на плоскости - это одномерное многообразие в двумерном пространстве, потому что для каждой точки кривой можно провести касательную (сама кривая может быть аппроксимирована линией в каждой точке). Гладкая поверхность в трехмерном пространстве - это двумерное многообразие. И так далее.

    В более общем плане гипотеза многообразия утверждает, что все естественные данные покоятся на многообразии меньшей размерности, находящемся в пространстве большей размерности, где эти данные закодированы. Довольно сильное утверждение о структуре информации во Вселенной. Насколько нам известно, оно верно - и именно поэтому глубокое обучение работает. Оно релевантно для изображений цифр в наборе MNIST, а также для человеческих лиц, деревьев, звуков человеческого голоса и даже для естественного языка.

    Из гипотезы многообразия следует, что:

    Способность проводить интерполяцию между образцами является ключом к пониманию обобщения в глубоком обучении.

    На следующем шаге мы рассмотрим интерполяцию.




Предыдущий шаг Содержание Следующий шаг