Шаг 154.
Глубокое обучение на Python. Обобщенный процесс машинного обучения. Определение задачи. Сбор данных. Вложения в инфраструктуру маркировки данных
На этом шаге мы оценим проблемы, возникающие при организации этой работы.
Процесс маркировки данных определяет качество целевых значений, которые, в свою очередь, определяют качество модели. Внимательно изучите доступные вам
варианты такие, как:
- самостоятельная маркировка данных;
- маркировка с привлечением краудсорсинговой платформы (такой как Mechanical Turk);
- помощь специализированной компании по маркировке данных.
Аутсорсинг (маркировка сторонними исполнителями) может помочь сэкономить ваше время и деньги, но лишает вас контроля. Использование такой платформы,
как Mechanical Turk, вероятно, обойдется еще дешевле, но качество маркировки может оказаться довольно низким.
Оценивая варианты, учитывайте имеющиеся ограничения.
- Должны ли быть экспертами в предметной области те, кто будет заниматься маркировкой данных, или это под силу любому? Отбором изображений для
задачи классификации кошек и собак может заниматься любой, но для определения пород собак нужны специальные знания; маркировка же, к примеру,
компьютерных томограмм переломов костей и вовсе требует степени доктора медицины.
- Если маркировка данных требует специальных знаний, то сможете ли вы обучить других людей? Если нет, то как привлечь к этой работе экспертов?
- Понимаете ли вы сами, как эксперты маркируют данные? Если нет, то вам придется рассматривать свой набор данных как черный ящик и у вас не будет возможности проектирования признаков вручную - это некритично, но может стать ограничивающим фактором.
Если вы решите маркировать данные самостоятельно, то спросите себя, какое программное обеспечение будете использовать для записи меток . Возможно, вам придется его разработать самим. Эффективное программное обеспечение для маркировки данных может помочь сэкономить много времени, поэтому уделите ему должное внимание на ранней стадии развития проекта
На следующем шаге мы рассмотрим вред, наносимый нерепрезентативными данными.
Предыдущий шаг
Содержание
Следующий шаг