Шаг 136.
Глубокое обучение на Python. Основы машинного обучения. Оценка моделей машинного обучения. Что важно помнить об оценке моделей
На этом шаге мы перечислим те моменты, которые нужно помнить при реализации оценки.
Выбирая протокол оценки, всегда помните:
- о репрезентативности данных - обучающая и контрольная выборки должны быть репрезентативными для всего объема имеющихся данных. Например, если
вы пытаетесь классифицировать изображения рукописных цифр и имеете массив, в котором образцы упорядочены по классам, использование первых 80% образцов
для обучения и остальных 20% для контроля приведет к тому, что обучающая выборка будет содержать классы 0-7, а контрольная - только классы 8-9. Данная
ошибка может показаться смешной, однако ее совершают слишком часто. По этой причине всегда желательно перемешивать данные перед делением на
обучающую и контрольную выборки;
- о направлении оси времени - пытаясь предсказать будущее по прошлому (например, погоду на завтра, изменение цен на бирже и т. д. ), вы
не должны перемешивать данные перед делением, поскольку это создаст временную утечку: ваша модель фактически будет обучаться по данным в будущем. В
таких ситуациях всегда нужно следить, чтобы контрольные данные следовали непосредственно за обучающими;
- об избыточности данных - если некоторые образцы присутствуют в данных в нескольких экземплярах (частое явление в реальном мире),
перемешивание и деление данных на обучающую и проверочную выборки приведет к появлению избыточности между ними. По сути, вы будете проводить
тестирование на части обучающих данных - а это худшее из зол! Убедитесь, что обучающая и проверочная выборки не пересекаются.
Имея надежный способ оценки качества модели, вы сможете решить главную
проблему машинного обучения - найти баланс между оптимизацией и общностью, недообучением и переобучением.
Со следующего шага мы займемся улучшением качества обучения модели.
Предыдущий шаг
Содержание
Следующий шаг