На этом шаге мы подведем некоторый итог по изученному материалу.
В этих шагах мы обсудили перекрестную проверку, решетчатый поиск, а также метрики, играющие ключевую роль в оценке и улучшении алгоритмов машинного обучения. Метрики, описанные в предыдущих шагах, вместе с ранее рассмотренными алгоритмами, являются основными инструментами для каждого специалиста по машинному обучению.
Здесь есть два довольно важных момента, которые нужно повторить, потому что начинающие специалисты, как правило, игнорируют их. Первый момент связан с перекрестной проверки. Перекрестная проверка или использование тестового набора позволяют оценить модель машинного обучения с точки зрения того, как она будет работать в будущем. Однако, если мы с помощью тестового набора или перекрестной проверки осуществляем отбор модели или отбор параметров модели, мы "растрачиваем" тестовые данные, а использование тех же самых данных для оценки работы модели в будущем приведет к чрезмерно оптимистичным прогнозам. Поэтому нам необходимо разбить данные на обучающий набор для построения модели, проверочный набор для отбора модели параметров и тестовый набор для оценки качества моделей. Вместо одного разбиения мы можем использовать разбиения перекрестной проверки. Наиболее часто используемым вариантом (как описывалось ранее) является разбиение обучение/тест для оценки, а также использование перекрестной проверки на обучающем наборе для отбора модели и параметров.
Второй момент связан с важностью метрики качества или функции оценки, которые используются для отбора модели и оценки модели. Теории, связанные с принятием бизнес-решений на основе прогнозов моделей машинного обучения, в некоторой степени выходят за рамки нашего изложения. Однако в проектах машинного обучения построение модели с высоким значением правильности редко бывает конечной целью. Убедитесь в том, что метрика, используемая для оценки и отбора модели, является точным приближением решаемой задачи. В реальности классификационные задачи редко характеризуются сбалансированностью классов и зачастую ложно положительные и ложно отрицательные примеры ведут к совершенно различным последствиям. Убедитесь в том, что вы правильно интерпретируете эти последствия и выберите соответствующую метрику.
Методы оценки и отбора модели, которые мы описывали до сих пор, являются важнейшими инструментами в арсенале специалиста по анализу данных. Решетчатый поиск и перекрестную проверку, описанные нами в этих шагах, можно применить только к одной модели машинного обучения. Однако ранее мы уже видели, что многие модели требуют предварительной обработки данных и в некоторых ситуациях, например, при распознавании лиц, получение нового представления данных может быть полезным. В следующих шагах мы познакомимся с классом Pipeline, который позволяет использовать решетчатый поиск и перекрестную проверку для сложных цепочек алгоритмов.
Со следующего шага мы начнем рассматривать объединение алгоритмов в цепочки и конвейеры.