Шаг 162.
Глубокое обучение на Python. Обобщенный процесс машинного обучения. Разработка модели. Подготовка данных. Обработка недостающих значений

    На этом шаге мы рассмотрим решение проблемы недостающих данных.

    Иногда в исходных данных могут отсутствовать некоторые значения. Например, в случае с предсказанием цен на дома первым признаком (столбец с индексом 0 в данных) был уровень преступности на душу населения. Как быть, если этот признак определен не во всех образцах? Если оставить все как есть, у нас появится недостаток значений в обучающих или контрольных данных.

    От такого признака можно вообще отказаться, а можно поступить иначе.

    Обратите внимание: если в контрольных данных имеются отсутствующие значения, а сеть была обучена без них, то она не будет отсутствующие значения распознавать! В этой ситуации следует искусственно сгенерировать обучающие экземпляры с отсутствующими признаками: скопируйте несколько обучающих образцов и отбросьте в них некоторые признаки, которые, как ожидается, не определены в контрольных данных.

    На следующем шаге мы рассмотрим выбор протокола оценки.




Предыдущий шаг Содержание Следующий шаг