Шаг 53.
Введение в машинное обучение с использованием Python. ... . Алгоритмы машинного обучения с учителем. Деревья решений. Преимущества, недостатки и параметры

    На этом шаге мы подведем некоторые итоги использования деревьев.

    Как уже говорилось на предыдущих шагах, параметры, которые контролируют сложность модели в деревьях решений - это параметрами предварительной обрезки дерева, которые останавливают построение дерева, прежде чем оно достигнет максимального размера. Обычно, чтобы предотвратить переобучение, достаточно выбрать одну из стратегий предварительной обрезки - настроить max_depth, max_leaf_nodes или min_samples_leaf.

    По сравнению со многими алгоритмами, обсуждавшимися до сих пор, деревья решений обладают двумя преимуществами:

    Поскольку каждый признак обрабатывается отдельно, а возможные разбиения данных не зависят от масштабирования, алгоритмы деревьев решений не нуждаются в таких процедурах предварительной обработки, как нормализация или стандартизация признаков. Деревья решений хорошо работают, когда у вас есть признаки, измеренные в совершенно разных шкалах, или когда ваши данные представляют смесь бинарных и непрерывных признаков.

    Основным недостатком деревьев решений является то, что даже при использовании предварительной обрезки, они склонны к переобучению и имеют низкую обобщающую способность. Поэтому в большинстве случаев, как правило, вместо одиночного дерева решений используются ансамбли деревьев, которые мы обсудим в следующих шагах.

    Со следующего шага мы начнем рассматривать ансамбли деревьев решений.




Предыдущий шаг Содержание Следующий шаг