На этом шаге мы рассмотрим требования, предъявляемые к данным.
Вы уже знаете, что способность к обобщению в глубоком обучении обусловлена скрытой структурой данных. Если ваши данные позволяют плавно интерполировать между образцами, то вы сможете обучить модель, способную к обобщению. Если данные слишком зашумлены или задача по своей сути дискретная (как, например, сортировка списков), то глубокое обучение вам не поможет. Глубокое обучение - это подгонка кривой.
Итак, прежде всего важно убедиться, что вы используете подходящий набор данных. Большие затраты сил и средств на сбор данных почти всегда имеют более высокую окупаемость, чем затраты на разработку более совершенной модели.
Особенно важным способом улучшить обобщение данных является конструирование признаков. Для большинства задач машинного обучения это ключевой ингредиент успеха. Давайте рассмотрим его.
На следующем шаге мы рассмотрим конструирование признаков.