На этом шаге мы определимся с содержанием дальнейшего изложения.
В предыдущем алгоритме мы произвольно предположили, что, если функция дифференцируема, мы можем явно вычислить ее производную. Но так ли это? Как на практике найти градиент сложных выражений? Как в двухслойной модели (26 шаг), с которой мы начали знакомиться с нейронными сетями, получить градиент потерь с учетом весов? В этом нам поможет алгоритм обратного распространения ошибки.
На следующем шаге мы рассмотрим цепное правило.