На этом шаге мы подведем некоторые итоги использования деревьев.
Как уже говорилось на предыдущих шагах, параметры, которые контролируют сложность модели в деревьях решений - это параметрами предварительной обрезки дерева, которые останавливают построение дерева, прежде чем оно достигнет максимального размера. Обычно, чтобы предотвратить переобучение, достаточно выбрать одну из стратегий предварительной обрезки - настроить max_depth, max_leaf_nodes или min_samples_leaf.
По сравнению со многими алгоритмами, обсуждавшимися до сих пор, деревья решений обладают двумя преимуществами:
Поскольку каждый признак обрабатывается отдельно, а возможные разбиения данных не зависят от масштабирования, алгоритмы деревьев решений не нуждаются в таких процедурах предварительной обработки, как нормализация или стандартизация признаков. Деревья решений хорошо работают, когда у вас есть признаки, измеренные в совершенно разных шкалах, или когда ваши данные представляют смесь бинарных и непрерывных признаков.
Основным недостатком деревьев решений является то, что даже при использовании предварительной обрезки, они склонны к переобучению и имеют низкую обобщающую способность. Поэтому в большинстве случаев, как правило, вместо одиночного дерева решений используются ансамбли деревьев, которые мы обсудим в следующих шагах.
Со следующего шага мы начнем рассматривать ансамбли деревьев решений.