На этом шаге мы рассмотрим, какова размерность тензора для хранения видео.
Видеоданные - один из немногих типов данных, для хранения которых требуются пятимерные тензоры. Видео можно представить как последовательность кадров, где каждый кадр - цветное изображение. Каждый кадр можно сохранить в трехмерном тензоре (высота, ширина, цвет), соответственно, их последовательность можно поместить в четырехмерном тензоре (кадры, высота, ширина, цвет), а пакет разных видеороликов - в пятимерном тензоре с формой (образцы, кадры, высота, ширина, цвет).
Например, 60-секундный видеоклип с разрешением 144 * 256 и частотой четыре кадра в секунду будет состоять из 240 кадров. Для сохранения пакета из четырех таких клипов потребуется тензор с формой (4, 240, 144, 256, 3). То есть 106 168 320 значений! Если предположить, что dtype тензора определен как float32, тогда для хранения каждого значения понадобится 32 бита, а для всего тензора соответственно 405 Мбайт. Мощно! Видеоролики, с которыми вам придется столкнуться в реальной жизни, намного легковеснее, потому что они не хранятся как коллекции значений типа float32 и обычно подвергаются значительному сжатию (как, например, формат MPEG).
Со следующего шаге мы начнем рассматривать операции с тензорами.