На этом шаге мы поговорим немного о роли данных в развитии глубокого обучения.
Иногда ИИ называют новой индустриальной революцией. И если глубокое обучение - ее паровой двигатель, то данные - это уголь: сырье, питающее наши интеллектуальные машины, без которого невозможно движение вперед. Вдобавок к экспоненциальному росту емкости устройств хранения информации, наблюдавшемуся в последние 20 лет (согласно закону Мура), перемены в игровом мире вызвали бурное развитие интернета, благодаря чему появилась возможность накапливать и распространять очень большие объемы данных для машинного обучения. В настоящее время крупные компании работают с коллекциями изображений, видео и текстовых материалов, которые невозможно было бы собрать без интернета. Например, изображения на сайте Flickr, классифицированные пользователями, стали золотой жилой для разработчиков моделей распознавания образов. То же можно сказать о видеороликах на YouTube. А "Википедия" теперь считается ключевым источником наборов данных для задач обработки естественного языка.
Если и есть набор данных, ставший катализатором для развития глубокого обучения, то это коллекция ImageNet, включающая 1,4 миллиона изображений, классифицированных вручную на 1000 категорий (каждое изображение отнесено только к одной категории) . Но особенной коллекцию делает не только ее огромный размер, но и ее применение во время ежегодных соревнований.
Как показывает пример Kaggle, публичные конкурсы - отличный способ мотивации исследователей и инженеров преодолевать все новые и новые рубежи. Наличие общих критериев оценки достижений участников значительно помогло недавнему росту глубокого обучения, подчеркнув его преимущества перед классическими подходами к машинному обучению.
На следующем шаге мы рассмотрим алгоритмы.