На этом шаге мы подведем некоторый итог изученному материалу.
На предыдущих шагах мы рассмотрели способы обработки различных типов данных (в частности, обработку категориальных переменных). Мы подчеркнули важность представления данных таким способом, который в наибольшей степени подходит для алгоритма машинного обучения, например, рассмотрели прямое кодирование категориальных переменных. Мы также обсудили важность конструирования новых признаков, а также возможность применения экспертных знаний при разработке новых переменных на основе ваших данных.
Создание новых признаков с помощью биннинга, добавления полиномов и взаимодействий может значительно улучшить качество линейных моделей, тогда как более сложные, нелинейные модели типа случайного леса и SVM могут решать более трудные задачи без явного расширения пространства признаков. На практике наличие признаков, подходящих для использования (а также их соответствие применяемой модели), часто является самым важным элементом, обеспечивающим хорошую работу методов машинного обучения.
Теперь у вас есть развернутое представление о том, как закодировать данные надлежащим образом и какой алгоритм использовать для решения определенной задачи. Следующие шаги будут посвящены оценке качества моделей машинного обучения и выбору правильных параметров.
Со следующего шага мы начнем рассматривать оценку и улучшение качества модели.