На этом шаге мы оценим важность сбора данных.

Определив природу задачи и узнав, какими должны быть входные данные и цели, можно приступать к сбору данных - наиболее сложной, трудоемкой и дорогостоящей части большинства проектов машинного обучения.

Для поисковой системы фотографий сначала нужно сформировать набор меток, представляющих нужные вам классы, - на выбор у вас есть 10 000 общих категорий изображений. Затем необходимо вручную пометить сотни тысяч загруженных пользователями изображений метками из этого набора.
Для определения спама в чат-приложении обучить модель на его содержимом не получится - пользовательские чаты используют сквозное шифрование. Вам потребуется получить доступ к отдельному набору данных из десятков тысяч неотфильтрованных сообщений в социальных сетях и вручную пометить их как спам, оскорбительные или допустимые.
Систему подбора музыкальных рекомендаций можно реализовать на основе лайков, оставляемых вашими пользователями. Никаких новых данных собирать не нужно. Аналогично для прогнозирования процента переходов по рекламным ссылкам можно использовать информацию о переходах по прошлым объявлениям за последние годы.
Для создания модели отбраковки печенья вам потребуется установить камеры над конвейерными лентами и собрать десятки тысяч изображений; затем кто-то должен будет вручную снабдить эти изображения метками. Люди, занимающиеся отбраковкой, в настоящее время работают на фабрике печенья, но сама по себе эта задача не очень сложная и у вас должно получиться обучить этому же своих сотрудников.
Для решения задачи анализа спутниковых снимков необходимо, чтобы группа археологов составила перечень существующих археологических объектов, представляющих интерес. Для каждого объекта вы должны будете найти спутниковые снимки, сделанные в различных погодных условиях. Чтобы получить хорошую модель, вам понадобятся тысячи различных местоположений.

Ранее мы узнали, что способность модели к обобщению почти полностью зависит от свойств обучающих данных - от количества образцов данных, точности меток, качества признаков. Хороший набор данных - это актив, в который стоит вкладывать время и силы. Если у вас есть дополнительные 50 часов, которые можно потратить на проект, то лучше отдать их на сбор дополнительных данных, а не на поиск улучшений в моделировании.

Идея о большей важности данных по сравнению с алгоритмами наиболее ярко была представлена в статье The Unreasonable Effectiveness of Data, написанной исследователями из Google в 2009 году (название является отсылкой к известной статье The Unreasonable Effectiveness of Mathematics in the Natural Sciences, написанной Юджином Вигнером в 1960 году). Статья появилась еще до того, как глубокое обучение стало популярным, но, что примечательно, развитие глубокого обучения только увеличило важность данных.

В случае обучения с учителем после сбора входных данных (например, изображений) вам потребуется снабдить их метками (например, добавить теги к изображениям) - целевыми значениями, которые ваша модель должна научиться предсказывать. Иногда метки можно получить автоматически, например для задачи подбора музыкальных рекомендаций или прогнозирования процента переходов по рекламным объявлениям. Но чаще это приходится делать вручную - весьма трудоемкий процесс.

На следующем шаге мы рассмотрим вложения в инфраструктуру маркировки данных.

Предыдущий шаг Содержание Следующий шаг