Шаг 26.
Введение в машинное обучение с использованием Python. Методы машинного обучения с учителем. Классификация и регрессия

    На этом шаге мы дадим краткую характеристику этих понятий.

    Есть два основные задачи машинного обучения с учителем:

    Цель классификации состоит в том, чтобы спрогнозировать метку класса (class label), которая представляет собой выбор из заранее определенного списка возможных вариантов. В предыдущих шагах мы использовали пример классификации ирисов, когда относили цветок к одному из трех возможных сортов. Классификация иногда разделяется на

    Бинарную классификацию можно представить как попытку ответить на поставленный вопрос в формате "да/нет". Классификация электронных писем на спам и не-спам является примером бинарной классификации. В данной задаче бинарной классификации ответ "да/нет" дается на вопрос "является ли это электронное письмо спамом?"


В бинарной классификации мы часто говорим о том, что один класс является положительным (positive) классом, а другой класс является отрицательным (negative) классом. При этом "положительный" означает здесь не наличие выгоды (ценности), а объект исследования. Таким образом, при поиске спама, положительным классом может быть класс "спам". Вопрос о том, какой из этих двух классов будет положительным, часто субъективен и зависит от предметной области исследования.

    С другой стороны, пример классификации ирисов является примером мультиклассовой классификации. Еще один пример - прогнозирование языка веб-сайта. Классами здесь будет заранее определенный список возможных языков.

    Цель регрессии состоит в том, чтобы спрогнозировать непрерывное число или число с плавающей точкой (floating-point number), если использовать термины программирования, или вещественное число (real number), если говорить языком математических терминов. Прогнозирование годового дохода человека в зависимости от его образования, возраста и места жительства является примером регрессионной задачи. Прогнозируемое значение дохода представляет собой сумму (amount) и может быть любым числом в заданном диапазоне. Другой пример регрессионной задачи - прогнозирование объема урожая зерна на ферме в зависимости от таких атрибутов, как объем предыдущего урожая, погода, и количество сотрудников, работающих на ферме. И снова объем урожая может быть любым числом.

    Самый простой способ отличить классификацию от регрессии - спросить, заложена ли в полученном ответе определенная непрерывность (преемственность). Если полученные результаты непрерывно связаны друг с другом, то решаемая задача является задачей регрессии. Возьмем прогнозирование годового дохода. Здесь ясно видна непрерывность ответа. Разница между годовым доходом в 400000₽ или 400001₽ не существенна, хотя речь идет о разных денежных суммах. Если наш алгоритм предсказывает 399999₽ или 400001₽, в то время как он должен предсказать 400000₽ (реальное значение годового дохода), мы не будем настаивать на том, что разница существенна. Наоборот, в задаче распознавании языка веб-сайта (задаче классификации) ответы четко определены. Контент сайта может быть написан либо на одном конкретном языке, либо на другом. Между языками нет непрерывной связи, не существует языка, находящегося между английским и русским.

    На следующем шаге мы рассмотрим переобучение и недообучение.




Предыдущий шаг Содержание Следующий шаг