На этом шаге мы подведем некоторые итоги.
Градиентный бустинг деревьев решений - одна из самых мощных и широко используемых моделей обучения с учителем. Его основной недостаток заключается в том, что он требуют тщательной настройки параметров и для обучения может потребоваться много времени. Как и другие модели на основе дерева, алгоритм хорошо работает на данных, представляющих смесь бинарных и непрерывных признаков, не требуя масштабирования. Как и остальные модели на основе дерева, он также плохо работает на высокоразмерных разреженных данных.
Основные параметры градиентного бустинга деревьев - это количество деревьев (n_estimators) и скорость обучения (learning_rate), контролирующая степень вклада каждого дерева в устранение ошибок предыдущих деревьев. Эти два параметра тесно взаимосвязаны между собой, поскольку более низкое значение learning_rate означает, что для построения модели аналогичной сложности необходимо большее количество деревьев. В отличие от случайного леса, в котором более высокое значение n_estimators всегда дает лучшее качество, увеличение значения n_estimators в градиентном бустинге дает более сложную модель, что может привести к переобучению. Общепринятая практика - подгонять n_estimators в зависимости от бюджета времени и памяти, а затем подбирать различные значения learning_rate.
Другим важным параметром является параметр max_depth (или, как альтернатива, max_leaf_nodes), направленный на уменьшение сложности каждого дерева. Обычно для моделей градиентного бустинга значение max_depth устанавливается очень низким, как правило. не больше пяти уровней.
Со следующего шага мы начнем рассматривать ядерный метод опорных векторов.