На этом шаге мы рассмотрим плюсы и минусы такого развертывания.

В некоторых случаях желательно, чтобы модель работала на том же устройстве, где выполняется использующее ее приложение. Это может быть смартфон, встроенная в робота система на процессоре ARM или микроконтроллер в небольшом устройстве. Вероятно, вы видели камеру, способную автоматически обнаруживать людей и распознавать их лица: вполне возможно, что это результат работы небольшой модели глубокого обучения, действующей непосредственно в камере.

Данный вариант развертывания следует использовать, когда:

модель имеет строгие ограничения по задержке или должна работать в отсутствие подключения к интернету. Например, в захватывающем приложении с функцией дополненной реальности задержки на ожидание ответа удаленного сервера просто недопустимы;
модель нужно сделать достаточно маленькой, чтобы она могла работать в условиях ограниченного объема доступной памяти и на процессоре небольшой мощности . В таких случаях вам может помочь набор инструментов TensorFlow Model Optimization Toolkit (https://www.tensorflow.org/model_optimization);
точность прогнозирования не является критической для вашей задачи. Высокая точность и быстродействие - это два взаимоисключающих фактора, поэтому в условиях ограниченного объема памяти и невысокой вычислительной мощности часто приходится развертывать модель, которая не так хороша, как ее версия, требующая для работы мощный графический процессор;
входные данные строго конфиденциальны и не должны появляться в открытом виде на удаленном сервере.

Например, модель обнаружения спама должна запускаться на смартфоне конечного пользователя в составе чат-приложения, поскольку сообщения подвергаются сквозному шифрованию и не могут быть прочитаны удаленной моделью. Точно так же модель обнаружения бракованного печенья на ленте конвейера имеет строгие ограничения по задержке и должна работать непосредственно на заводе. К счастью, в этом случае нет ограничений по мощности или объему памяти и модель можно запустить на графическом процессоре.

Для развертывания моделей Keras на смартфонах или встраиваемых устройствах можно использовать решение TensorFlow Lite (https://ai.google.dev/edge/litert). Этот фреймворк обеспечивает эффективную работу моделей глубокого обучения в режиме прогнозирования на смартфонах с Android и iOS, а также на компьютерах на базе ARM64, Raspberry Pi и некоторых микроконтроллерах. Он включает инструмент для преобразования моделей Keras в формат TensorFlow Lite.

На следующем шаге мы рассмотрим развертывание модели в браузере.

Предыдущий шаг Содержание Следующий шаг