На этом шаге мы поговорим о критериях выбора такой меры.
Чтобы держать ситуацию под контролем, нужно иметь возможность наблюдать за ней. Чтобы добиться успеха, важно определить, что понимается под успехом. Близость? Точность и полнота? Удержание клиентов? Мера успеха будет определять все технические решения, которые вы будете принимать в процессе работы над проектом. Она должна быть прямо связана с вашими общими целями - например, такими, как успех бизнеса.
Для задач симметричной классификации, когда каждый класс одинаково вероятен, часто используются такие показатели, как близость и площадь под кривой рабочей характеристики приемника (area under curve of receiver operating characteristic, ROC AUC). Для задач несимметричной классификации можно взять точность и полноту. Для задач ранжирования или многозначной классификации пригодится среднее математическое ожидание. Также нередко приходится определять собственную меру успеха. Чтобы получить представление о разнообразии мер успеха в машинном обучении и их связях с разными предметными областями, полезно ознакомиться с состязаниями аналитиков на сайте Kaggle ( https://kaggle.com); там вы увидите широкий спектр проблем и оцениваемых показателей.
Со следующего шага мы займемся разработкой модели.