Обратное распространение в нейронных сетях: Алгоритм, Типы, Работа

Содержание

Введение
Что такое нейронная сеть?
Что такое обратное распространение в нейронных сетях?
Особенности обратного распространения нейронной сети
Алгоритм обратного распространения в нейронной сети
Прямой проход:
Расчет функции потерь:
Обратный проход:
Применение Цепного правила:
Обновление Весов:
Итерация:
Оптимизация:
Как работает алгоритм обратного распространения?
Роль обратного распространения в нейронной сети
Типы сетей обратного распространения
Статическое Обратное Распространение
Повторяющееся Обратное распространение
Преимущества обратного распространения
Недостатки обратного распространения
Важные концепции обратного распространения в нейронных сетях
Общие функции активации в нейронных сетях
ReLU (Выпрямленный линейный блок):
Сигмовидная кишка (Логистическая):
танх (Гиперболический тангенс):

Введение

Обратное распространение в нейронной сети – это алгоритм, который обеспечивает обратное распространение ошибок от выходных узлов к входным. Следовательно, он также известен как обратное распространение ошибок. Он используется для распознавания символов, проверки подписи и т.д.

Что такое нейронная сеть?

Нейронные сети обрабатывают информацию подобно человеческому мозгу. Подобно тому, как нервная система человека имеет биологические нейроны, в нейронных сетях есть искусственные нейроны, которые представляют собой математические функции, производные от биологических нейронов.

Как мы знаем, в человеческом мозге насчитывается около 10 миллиардов нейронов, которые связаны друг с другом. Каждый нейрон получает сигнал через синапс, который контролирует сигнал, касающийся воздействия на нейрон.

Аналогично, нейронная сеть относится к группе подключенных блоков ввода-вывода, каждый из которых имеет вес, связанный со своей компьютерной программой. Мы используем нейронные сети для построения прогнозирующих моделей с помощью больших баз данных.

Что такое обратное распространение в нейронных сетях?

Обратное распространение – это метод, используемый в нейронных сетях, чтобы научить их совершенствоваться и принимать более правильные решения. Представьте себе, что учитель исправляет ошибки ученика, чтобы он мог учиться. В нейронной сети обратное распространение – это способ находить и исправлять ошибки в ее решениях.

Вот как это работает:

Составление Прогнозов:

Нейронная сеть сначала делает прогнозы или догадки о чем-либо, основываясь на имеющейся у нее информации.

Сравнение с реальностью:

Затем он проверяет, насколько его догадки были близки к реальным, правильным ответам. Если он допустил ошибки, ему нужно извлечь из них урок.

Поиск Ошибок:

Обратное распространение помогает сети найти, где она допустила ошибки. Оно определяет, какие части сети необходимо скорректировать, чтобы делать более точные прогнозы.

Настройка сети:

Затем сеть изменяет свои “настройки” (силу связей между нейронами), чтобы снизить вероятность повторения тех же ошибок в будущем.

Повторяйте и совершенствуйте:

Этот процесс повторяется снова и снова, с большим количеством примеров и раундов исправлений. С каждым разом сеть становится все лучше в составлении точных прогнозов.

Особенности обратного распространения нейронной сети

Вот несколько особенностей обратного распространения в нейронной сети:

Нейронная сеть с обратным распространением отличается от других сетей с точки зрения процесса вычисления весов в течение периода обучения сети.
Это метод градиентного спуска, используемый в простых сетях персептрона с дифференцируемой единицей измерения.
Обучение включает в себя три этапа:

Шаблон обучения вводу данных с прямой передачей
Вычисление ошибок и обратное распространение
Обновление веса

Алгоритм обратного распространения в нейронной сети

Алгоритм обратного распространения – фундаментальный метод, используемый при обучении искусственных нейронных сетей, особенно в глубоком обучении. Он используется для эффективного вычисления градиентов функции потерь по отношению к весам сети. Затем эти градиенты используются для обновления весов и минимизации потерь.

Вот как работает алгоритм обратного распространения:

Прямой проход:

Процесс начинается с прямого прохождения по сети, при котором входные данные передаются через каждый уровень.
На каждом уровне выходные данные вычисляются как функция входных данных и текущих весов. Это часто включает в себя линейное преобразование (например, матричное умножение), за которым следует нелинейная функция активации.

Расчет функции потерь:

Как только входные данные распространяются по сети на выходной уровень, выходные данные сравниваются с желаемыми выходными данными (или меткой), и потери (или ошибка) вычисляются с использованием функции потерь. Общие функции потерь включают среднеквадратичную ошибку для задач регрессии и кросс-энтропию для задач классификации.

Обратный проход:

Здесь начинается обратное распространение. Цель здесь – вычислить градиент функции потерь относительно каждого веса в сети.
Процесс начинается с выходного уровня и движется в обратном направлении по сети.
Сначала вычисляется градиент функции потерь относительно выходных данных сети. Затем этот градиент используется для вычисления градиентов относительно весов выходного слоя.

Применение Цепного правила:

Ядром обратного распространения является применение правила цепочки из математического анализа, которое используется для итеративного вычисления градиента функции потерь относительно каждого веса в сети.
По мере того, как алгоритм перемещается назад слой за слоем, он вычисляет градиент потерь по отношению к выходным данным каждого слоя, а затем по отношению к каждому весу.

Обновление Весов:

Как только градиенты вычислены, веса сети обновляются, обычно с использованием метода, подобного градиентному спуску. Это включает в себя вычитание части градиента из текущих весов.
Размер этой доли определяется параметром, называемым скоростью обучения. Меньшая скорость обучения означает, что сеть будет обучаться медленно, снижая риск превышения минимальных потерь; большая скорость обучения ускоряет процесс обучения, но может привести к потере минимума.

Итерация:

Этот процесс прямого прохождения, вычисления потерь, обратного распространения и обновления весов повторяется в течение многих итераций или эпох по всему набору обучающих данных до тех пор, пока производительность сети (потери) не станет удовлетворительной.

Оптимизация:

К этому базовому алгоритму могут быть применены различные оптимизации и улучшения, включая различные методы оптимизации, такие как SGD (Стохастический градиентный спуск), Adam или RMSProp, а также методы предотвращения переобучения, такие как регуляризация или отсев.

Как работает алгоритм обратного распространения?

Алгоритм нейронной сети обратного распространения использует правило цепочки для вычисления градиента функции потерь для отдельного веса. В отличие от собственных прямых вычислений, обратное распространение вычисляет по одному слою за раз. Хотя он вычисляет градиент, он не определяет, как он используется, и обобщает вычисления в дельта-правилах.

Шаг 1- Ввод X поступает из предварительно подключенного пути.

Шаг 2- Используя true eights W, входные данные моделируются. Выбор весов является случайным.

Шаг 3- Пришло время вычислить выходные данные для каждого нейрона от входного слоя к скрытому, а затем к выходному слою.

Шаг 4- Рассчитайте ошибки в выходных данных, используя следующую формулу:

ErrorB= Actual Output – Desired Output

Шаг 5- Перейдите к скрытому слою из выходного слоя, чтобы скорректировать веса для уменьшения ошибок.

Шаг 6- Повторяйте тот же процесс до тех пор, пока не будет достигнут желаемый результат.

Роль обратного распространения в нейронной сети

Алгоритм обратного распространения в машинном обучении, также известный как обратное распространение ошибок, полезен для обучения нейронных сетей. Это не требует от нас установки каких-либо параметров, выдвижения в Excel ряда входных данных и является гибким методом, который не требует предварительных знаний о сети.

Вот несколько причин, по которым нам необходимо обратное распространение:

Это стандартный метод, который хорошо работает.
Он прост, быстр и легок в программировании.
Это не требует от вас изучения особенностей функций.
Нет необходимости настраивать параметры, кроме количества входных данных.
Этот гибкий метод не требует от вас предварительных знаний о сети.

Типы сетей обратного распространения

Существует два основных типа нейронных сетей обратного распространения:

Статическое Обратное Распространение
Повторяющееся Обратное распространение

Статическое Обратное Распространение

Сеть статического обратного распространения предназначена для сопоставления статических входных данных со статическими выходными данными. Эта сеть удобна для решения задач статической классификации, таких как OCR (оптическое распознавание символов).

Повторяющееся Обратное распространение

Рекуррентное обратное распространение в нейронной сети используется для обучения с фиксированной точкой. Активация в этой сети откладывается до достижения фиксированного значения. После выполнения ошибка вычисляется и распространяется в обратном направлении.

Основное отличие заключается в том, что статическое распространение обеспечивает мгновенное отображение, в то время как рекуррентное обратное распространение не обеспечивает мгновенного отображения.

Преимущества обратного распространения

Обратное распространение является эффективным и гибким.
Алгоритм обратного распространения быстр, прост и легко программируется.
Пользователям не нужно изучать специальные функции.
Нужно настроить только номера входных данных, а не какие-либо другие параметры.

Недостатки обратного распространения

Производительность обратного распространения в машинном обучении для решения конкретной задачи в значительной степени зависит от входных данных.
Необходимо выбрать матричный подход, а не мини-пакет.
Обратное распространение чувствительно к зашумленным данным и неравномерностям, которые могут привести к неточным результатам.
Слишком много времени тратится на тренировки

Важные концепции обратного распространения в нейронных сетях

Функции потерь

Функции потерь играют решающую роль в обучении нейронных сетей. Они подобны счетчикам, которые сообщают сети, насколько хорошо она справляется с составлением прогнозов.

Представьте, что вам нужно решить кучу математических задач, и вы хотите знать, сколько ошибок вы допустили. Функция потерь похожа на линейку, которая измеряет, насколько далеки ваши ответы от правильных.

В нейронной сети, когда она делает прогнозы (например, угадывает, есть ли на картинке кошка или собака), она может допускать ошибки. Функция потерь вычисляет, насколько неверны эти прогнозы по сравнению с реальными ответами.

Цель обратного распространения – улучшить сеть. Для этого сеть должна знать, где она допустила ошибку. Функция потерь обеспечивает эту обратную связь. Там написано: “Вот это ты понял правильно, а вот то неправильно”.

Прямой Проход

Прямой переход в нейронной сети подобен пошаговому следованию рецепту для приготовления вкусного блюда. Это процесс, при котором данные поступают в сеть, и сеть слой за слоем вычисляет свои прогнозы. Вот как это работает:

Представьте, что вы готовите рецепт, и у вас есть все ингредиенты (данные) наготове. В нейронной сети этими компонентами могут быть такие вещи, как пиксели изображения, если вы распознаете картинки, или слова в предложении, если вы понимаете текст.

Обратный проход

Обратный процесс, также известный в машинном обучении как обратное распространение, подобен тому, как шеф-повар уточняет свой рецепт после дегустации блюда. Это процесс, в ходе которого нейронная сеть обновляет свои “инструкции по приготовлению” (веса) на основе того, как она выполнялась во время прямого прохода.

Помните, что во время прямого прохода нейронная сеть делала прогнозы и вычисляла ошибку (насколько она отличалась от фактических значений), используя выбранную функцию потерь.

Теперь, на обратном пути, сеть хочет выяснить, где она допустила ошибки. Это похоже на дегустацию блюда и попытку определить, какие ингредиенты нуждаются в корректировке.

Для этого сеть использует математический метод, называемый правилом цепочки. Правило цепочки помогает распределить ошибку обратно по уровням сети, слой за слоем.

Ошибка начинается в конце сети, где было сделано окончательное предсказание. Сеть проверяет, на сколько было отклонено предсказание (ошибка), и учитывает, как каждый нейрон в этом слое внес свой вклад в ошибку.

Повторение прохода Вперед и Назад:

Этот цикл “вперед-назад” повторяется много раз во время обучения. С каждым циклом сеть становится лучше в прогнозировании и минимизации ошибок.

По сути, обратный переход (backpropagation) подобен процессу самосовершенствования нейронной сети. Она пробует блюдо на вкус, определяет, где оно пошло не так, и корректирует рецепт, чтобы сделать его лучше. Используя цепное правило для обратного распределения ошибок по уровням, сеть постепенно становится более квалифицированной в составлении точных прогнозов, подобно шеф-повару, совершенствующему свой кулинарный шедевр.

Градиентный Спуск

Градиентный спуск подобен туристу, пытающемуся найти кратчайший путь вниз с горы. В мире нейронных сетей это метод, используемый для корректировки “шагов”, предпринимаемых сетью, чтобы минимизировать ошибки и делать более точные прогнозы.

Представьте, что вы находитесь на горе, и ваша цель – достичь самой низкой точки (минимальная ошибка). У вас нет карты, но вы знаете крутизну местности в вашем текущем местоположении.

В нейронных сетях мы используем нечто, называемое градиентами, которые похожи на стрелки, указывающие в направлении самого крутого спуска. Градиенты говорят нам, насколько мы должны скорректировать наше положение, чтобы приблизиться к самой низкой точке (минимальная ошибка).

Скорость обучения

Скорость обучения подобна регулировке скорости, с которой вы спускаетесь с горы в поисках самой низкой точки. В контексте нейронных сетей и градиентного спуска это важный параметр, который контролирует размер шагов, выполняемых при обновлении веса.

Общие функции активации в нейронных сетях

ReLU (Выпрямленный линейный блок):

ReLU – одна из самых популярных функций активации. Она преобразует входные данные, возвращая входное значение, если оно положительное, и устанавливая его равным нулю, если оно отрицательное.
Математически ReLU(x) = max(0, x).
ReLU предпочитают за его простоту и эффективность при обучении глубоких сетей. Он помогает преодолеть проблему исчезающего градиента и ускоряет конвергенцию.
Он часто используется в скрытых слоях нейронных сетей.

Сигмовидная кишка (Логистическая):

Сигмоид – это функция активации, которая сопоставляет входные значения с диапазоном от 0 до 1.
Математически сигмовидная (x) = 1 / (1 + e^(-x)).
Сигмоид обычно используется в задачах двоичной классификации, где выходные данные должны представлять вероятности. Он преобразует входные данные в вероятностные выходные данные.
Однако он страдает от проблемы исчезающего градиента в глубоких сетях.

танх (Гиперболический тангенс):

tanh похож на sigmoid, но отображает входные значения в диапазоне от -1 до 1.
Математически tanh(x) = (e^x – e^(-x)) / (e^x + e^(-x)).
Как и sigmoid, tanh также используется в сценариях, где выходные данные должны быть сосредоточены вокруг нуля и фиксировать как положительные, так и отрицательные значения.
Он также сталкивается с проблемой исчезающего градиента, но в меньшей степени, чем сигмовидный.

А вы что думаете?