На этом шаге мы определимся с используемыми терминами.

Цель этого раздела - помочь вам начать использовать нейронные сети для решения практических задач. Здесь вы закрепите знания, приобретенные на предыдущих шагах, и примените их в трех новых задачах, охватывающих наиболее типичные случаи использования нейронных сетей:

в классификации отзывов о фильмах на положительные и отрицательные (бинарная классификация);
в классификации новостных лент по темам (многоклассовая классификация);
в оценке стоимости дома с учетом данных о недвижимости (регрессия).

Эти примеры познакомят вас со всеми этапами процесса машинного обучения: с предварительной обработкой данных, основными принципами выбора архитектуры модели и оценкой модели.

Глоссарий классификации и регрессии

В классификации и регрессии используется множество специальных терминов. Некоторые из них уже встречались вам в предыдущих примерах; еще больше их появится в следующих шагах. Все они имеют точные, специфичные для машинного обучения определения, и вы должны знать их.

Образец (sample), или вход (input) - один экземпляр данных, поступающий в модель.
Прогноз, предсказание (prediction), или выход (output) - результат работы модели.
Цель (target) - истина. То, что в идеале должна спрогнозировать модель по данным из внешнего источника.
Ошибка прогноза (prediction error), или величина потерь (loss value) - мера расстояния между прогнозом модели и целью.
Классы (classes) - набор меток в задаче классификации, доступных для выбора. Например, в задаче классификации изображений с кошками и собаками доступны два класса: "собака" и "кошка".
Метка (label) - конкретный экземпляр класса в задаче классификации. Например, если изображение № 1234 аннотировано как принадлежащее классу "собака", то "собака" является меткой для изображения № 1234.
Эталоны (ground-truth), или аннотации (annotations) - все цели для набора данных, обычно собранные людьми.
Бинарная классификация (binary classification) - задача классификации, которая должна разделить входные данные на две взаимоисключающие категории.
Многоклассовая классификация (multiclass classification) - задача классификации, которая должна разделить входные данные на более чем две категории. Примером может служить классификация рукописных цифр.
Многозначная, или нечеткая, классификация (multilabel classification) - задача классификации, в которой каждому входному образцу можно присвоить несколько меток. Например, на картинке могут быть изображены кошка и собака вместе, поэтому такая картинка должна аннотироваться двумя метками: "кошка" и "собака". Количество меток, присваиваемых изображениям, обычно может меняться.
Скалярная регрессия (scalar regression) - задача, в которой цель является скалярным числом, лежащим на непрерывной числовой прямой. Хорошим примером может служить прогнозирование цен на жилье: разные цены из непрерывного диапазона.
Векторная регрессия (vector regression) - задача, в которой цель является набором чисел, лежащих на непрерывной числовой прямой, например регрессия по нескольким значениям (таким как координаты прямоугольника, ограничивающего изображение).
Пакет, или мини-пакет (batch, или mini-batch) - небольшой набор образцов (обычно от 8 до 128), обрабатываемых моделью одновременно. Число образцов часто является степенью двойки для более эффективного использования памяти GPU. В процессе обучения один мини-пакет используется в градиентном спуске для вычисления одного изменения весов модели.

К этого раздела вы научитесь использовать нейронные сети для решения таких задач, как классификация и регрессия по векторным данным. После этого вы будете готовы приступить к изучению более строгой теории машинного обучения.

На следующем шаге мы прейдем к изучению бинарной классификации.

Предыдущий шаг Содержание Следующий шаг