Шаг 153.
Глубокое обучение на Python.
Обобщенный процесс машинного обучения. Определение задачи. Сбор данных

    На этом шаге мы оценим важность сбора данных.

    Определив природу задачи и узнав, какими должны быть входные данные и цели, можно приступать к сбору данных - наиболее сложной, трудоемкой и дорогостоящей части большинства проектов машинного обучения.

    Ранее мы узнали, что способность модели к обобщению почти полностью зависит от свойств обучающих данных - от количества образцов данных, точности меток, качества признаков. Хороший набор данных - это актив, в который стоит вкладывать время и силы. Если у вас есть дополнительные 50 часов, которые можно потратить на проект, то лучше отдать их на сбор дополнительных данных, а не на поиск улучшений в моделировании.

    Идея о большей важности данных по сравнению с алгоритмами наиболее ярко была представлена в статье The Unreasonable Effectiveness of Data, написанной исследователями из Google в 2009 году (название является отсылкой к известной статье The Unreasonable Effectiveness of Mathematics in the Natural Sciences, написанной Юджином Вигнером в 1960 году). Статья появилась еще до того, как глубокое обучение стало популярным, но, что примечательно, развитие глубокого обучения только увеличило важность данных.

    В случае обучения с учителем после сбора входных данных (например, изображений) вам потребуется снабдить их метками (например, добавить теги к изображениям) - целевыми значениями, которые ваша модель должна научиться предсказывать. Иногда метки можно получить автоматически, например для задачи подбора музыкальных рекомендаций или прогнозирования процента переходов по рекламным объявлениям. Но чаще это приходится делать вручную - весьма трудоемкий процесс.

    На следующем шаге мы рассмотрим вложения в инфраструктуру маркировки данных.




Предыдущий шаг Содержание Следующий шаг