Шаг 122.
Глубокое обучение на Python. Основы машинного обучения. ... . Недообучение и переобучение. Зашумленные обучающие данные

    На этом шаге мы рассмотрим пример таких данных.

    В реальных наборах данных довольно часто некоторые входные данные оказываются искаженными. Например, изображение цифры в наборе MNIST может не содержать ничего, кроме черных пикселей, или выглядеть необычно (рисунок 1).


Рис.1. Некоторые необычные образцы в обучающей выборке в наборе MNIST

    Что это за цифры? Однако все они присутствуют в обучающей выборке в наборе MNIST. Но это полбеды. Что еще хуже, так это наличие совершенно правильных входных данных, которые имеют ошибочные метки (рисунок 2).


Рис.2. Образцы в обучающей выборке в наборе MNIST, имеющие неверные метки

    Если модель постарается учесть такие выбросы, ее способность к обобщению ухудшится (рисунок 3).


Рис.3. Обобщение выбросов: надежное обучение против переобучения

    Например, рукописная цифра 4, которая очень похожа на 4 с ошибочной меткой на рисунке 2, может в конечном итоге классифицироваться как 9.

    На следующем шаге мы рассмотрим неоднозначные признаки .




Предыдущий шаг Содержание Следующий шаг