На этом шаге мы рассмотрим решение проблемы недостающих данных.
Иногда в исходных данных могут отсутствовать некоторые значения. Например, в случае с предсказанием цен на дома первым признаком (столбец с индексом 0 в данных) был уровень преступности на душу населения. Как быть, если этот признак определен не во всех образцах? Если оставить все как есть, у нас появится недостаток значений в обучающих или контрольных данных.
От такого признака можно вообще отказаться, а можно поступить иначе.
Обратите внимание: если в контрольных данных имеются отсутствующие значения, а сеть была обучена без них, то она не будет отсутствующие значения распознавать! В этой ситуации следует искусственно сгенерировать обучающие экземпляры с отсутствующими признаками: скопируйте несколько обучающих образцов и отбросьте в них некоторые признаки, которые, как ожидается, не определены в контрольных данных.
На следующем шаге мы рассмотрим выбор протокола оценки.