На этом шаге мы рассмотрим основные проблемы машинного обучения.
В трех примерах, представленных на предыдущих шагах, - в прогнозировании оценки обзоров фильмов, классификации тем новостей и регрессии цен на жилье - мы делили данные на обучающую, проверочную и контрольную выборки . Мы быстро выяснили причину, почему нельзя оценивать качество моделей по тем же данным, на которых производилось обучение: спустя всего несколько эпох качество прогнозирования по обучающим данным начинало расходиться с качеством прогнозирования по данным, которые модель прежде не видела. Возникал эффект переобучения, и этому эффекту подвержены все модели машинного обучения.
Основной проблемой машинного обучения является противоречие между оптимизацией и общностью. Под оптимизацией понимается процесс настройки модели для получения максимального качества на обучающих данных (обучение в машинном обучении), а под общностью - способность обученной модели давать качественный прогноз по данным, ранее ей незнакомым. Цель игры - добиться высокого уровня общности - но вы не можете ею управлять. Можно только настраивать модель, опираясь на обучающие данные. И если переусердствовать в этом, возникнет эффект переобучения и общность пострадает.
Но из-за чего возникает переобучение? Как добиться хорошего уровня общности?
На следующем шаге мы рассмотрим недообучение и переобучение.