На этом шаге мы отметим важность постановки задачи.

Вполне возможно, что самая важная часть процесса машинного обучения - это интерпретация данных, с которыми вы работаете, и применимость этих данных к задаче, которую вы хотите решить. Выбрать случайным образом алгоритм и скормить ему свои данные - неэффективное решение. Прежде чем приступить к построению модели, необходимо понять, что представляет собой ваш набор данных. Каждый алгоритм отличается с точки зрения типа обрабатываемых данных и вида решаемых задач. Создавая модель машинного обучения, вы должны ответить, или, по крайней мере, задуматься над следующими вопросами:

На какой вопрос(ы) я пытаюсь ответить? Собранные данные могут ответить на этот вопрос?
Как лучше всего сформулировать свой вопрос(ы) с точки зрения задач машинного обучения?
У меня собрано достаточно данных, чтобы составить представление о задаче, которую я хочу решить?
Какие признаки я извлек и помогут ли они мне получить правильные прогнозы?
Как я буду измерять эффективность решения задачи?
Как решение, полученное с помощью машинного обучения, будет взаимодействовать с другими компонентами моего исследования или бизнес-продукта?

В более широком контексте, алгоритмы и методы машинного обучения являются лишь этапом более крупного процесса, призванного решить конкретную задачу, и поэтому необходимо всегда держать схему этого процесса в голове. Многие тратят массу времени, создавая сложные модели машинного обучения решения, затем узнавая, что решают задачу неправильно.

Углубляясь в технические аспекты машинного обучения (что мы и будем делать по мере изложения), легко упустить из виду конечные цели. Несмотря на то, что мы не будем подробно обсуждать вопросы, перечисленные здесь, мы все же рекомендуем вам вспомнить о них, когда вы начнете строить модели машинного обучения.

На следующем шаге мы рассмотрим особенности языка программирования Python.

Предыдущий шаг Содержание Следующий шаг