Шаг 124.
Введение в машинное обучение с использованием Python. Типы данных и конструирование признаков. Автоматический отбор признаков (общие сведения)

    На этом шаге мы перечислим стратегии, используемые при отборе признаков.

    При таком разнообразии способов, позволяющих сгенерировать новые признаки, у вас, возможно, возникнет искушение увеличить размерность данных, превысив количество исходных признаков. Однако добавление новых признаков делает модели более сложными и поэтому увеличивает вероятность переобучения. Добавляя новые признаки или работая с высокоразмерными наборами данных, неплохо бы уменьшить количество признаков и оставить только наиболее полезные из них. Это позволит получить более простые модели с лучшей обобщающей способностью. Однако как узнать, насколько полезен каждый признак? Существуют три основные стратегии:

Мы подробно рассмотрим все три стратегии. Все эти методы относятся методам машинного обучения с учителем, то есть для подгонки модели им требуется зависимая переменная. Это означает, что нам нужно разбить данные на обучающий и тестовый наборы и осуществить отбор признаков лишь на обучающей выборке.

    На следующем шаге мы рассмотрим одномерные статистики.




Предыдущий шаг Содержание Следующий шаг