Шаг 114.
Введение в машинное обучение с использованием Python.
Типы данных и конструирование признаков (общие сведения)

    На этом шаге мы перечислим те задачи, которые нам предстоит решить.

    До сих пор мы считали, что наши данные представлены в виде двумерного массива чисел с плавающей точкой, в котором каждый столбец является непрерывным признаком (continuous feature), описывающим точки данных. Однако во многих случаях это не так. Наиболее распространенным типом признаков являются категориальные признаки (categorical features). Они еще известны как дискретные признаки (discrete features), поскольку обычно не имеют числовых значений. Различие между категориальными и непрерывными признаками аналогично различию между классификацией и регрессией, но только с точки зрения входных данных, а не ответов. Примерами непрерывных признаков, которые мы уже рассматривали, являются яркость пикселей и измерения характеристик ирисов. Примерами категориальных признаков являются бренд продукта, цвет продукта или отдел, в котором он продается (книги, одежда, оборудование). Все они являются свойствами, которые могут описать продукт, но при этом не измеряются в непрерывной шкале. Продукт продается либо в отделе одежды, либо в отделе книг. Не существует золотой середины между книгами и одежды и нет естественного способа упорядочить различные категории (книги не могут быть больше или меньше одежды, оборудование необязательно должно располагаться между книгами и одеждой и т.д.).

    Независимо от типов признаков, которыми будут представлены ваши данные, способ их подготовки имеет огромное влияние на качество работы моделей машинного обучения. Мы уже убедились, что масштабирование данных имеет важное значение. Другими словами, если вы не отмасштабируете данные (скажем, к единичной дисперсии), результаты моделирования будут зависеть от единиц измерения признаков. Кроме того, мы уже видели, что улучшить результаты может обогащение данных дополнительными признаками, например, можно добавить взаимодействия (произведения) признаков или полиномы.

    Вопрос оптимальной подготовки данных для конкретного прикладного применения известен под названием feature engineering (конструирование признаков) и является одной из главных задач для специалистов по машинному обучению, пытающихся решить реальные проблемы.

    В последующих шагах мы сначала рассмотрим важные и наиболее распространенные случаи использования категориальных признаков, а затем приведем некоторые примеры полезных преобразований для конкретных сочетаний признаков и моделей.

    На следующем шаге мы рассмотрим категориальные переменные.




Предыдущий шаг Содержание Следующий шаг