На этом шаге мы подведем итог изученному материалу.
В предыдущих шагах мы рассказали о классе Pipeline, инструменте, позволяющем объединять в одну цепочку несколько этапов предварительной обработки. В реальности проекты машинного обучения редко состоят из одной лишь модели, чаще всего они представляют собой последовательность этапов предварительной обработки. Конвейеры позволяет инкапсулировать несколько этапов в один питоновский объект, который поддерживает уже знакомый интерфейс scikit-learn, предлагая воспользоваться методами fit(), predict(), transform(). Если говорить более конкретно, применение класса Pipeline, охватывающего все этапы предварительной обработки, важно для правильной оценки качества модели. Кроме того, класс Pipeline позволяет писать более лаконичный код и уменьшает вероятность ошибок, которые могут быть допущены при построении цепочек операций без использования класса pipeline (например, мы можем забыть применить все преобразования к тестовому набору или можем применить их в неправильном порядке). Выбор оптимального сочетания извлеченных признаков, стратегии предварительной обработки, а также модели - это в определенной степени искусство, овладеть которым можно методом проб и ошибок. Однако использование конвейеров довольно существенно облегчает "экспериментирование" с различными операциями предварительной обработки данных. При проведении экспериментов постарайтесь не слишком усложнять процессы подготовки данных и убедитесь в том, что каждый оцениваемый компонент, включенный в ваш конвейер, является необходимым этапом.
Мы завершаем наш обзор инструментов и алгоритмов библиотеки scikit-learn. Теперь вы обладаете всеми необходимыми навыками и знакомы с механизмами применения машинного обучения на практике. В следующих шагах мы более подробно разберем еще один конкретный тип данных, который часто встречается на практике, и его правильная обработка требует специальных знаний. Речь пойдет о текстовых данных.
Со следующего шага мы начнем рассматривать работу с текстовыми данными.