Градиентный спуск в машинном обучении: Алгоритм, Типы, Оптимизация

Содержание

Введение
Что такое градиентный спуск в машинном обучении?
Почему Это называется градиентным спуском?
Алгоритм Градиентного спуска
1. Начните с начальных параметров:
2. Подсчитайте Убытки:
3. Вычислите градиент:
4. Определите направление:
5. Обновите параметры:
6. Скорость обучения:
7. Итеративный процесс:
8. Проверка сходимости:
9. Варианты градиентного спуска:
9. Применение:
Типы градиентного спуска
1. Пакетный Градиентный Спуск
Преимущества
2. Стохастический градиентный спуск
Преимущества
3. Мини-пакетный Градиентный спуск
Преимущества
Как обновляются параметры В процессе градиентного спуска?

Введение

Когда нам нужно найти дорогу в лесу, самый простой способ – следовать по тропинке самого крутого спуска и продолжать двигаться в направлении уменьшения уклона. Постепенно мы достигаем нашей цели. Алгоритм градиентного спуска работает точно так же, поскольку помогает нам ориентироваться в сложном мире машинного обучения. Модели используют его для поиска оптимального набора параметров, регулируя их в направлении, противоположном направлению градиента.

Градиентный спуск в машинном обучении – это широко используемый алгоритм оптимизации, используемый для обучения моделей ML путем минимизации ошибок между ожидаемыми и фактическими результатами. Он также используется для обучения нейронных сетей.

В этом блоге мы углубимся в подробности градиентного спуска, его работы, типов и многого другого.

Что такое градиентный спуск в машинном обучении?

Градиентный спуск – это фундаментальный алгоритм оптимизации, используемый в машинном обучении для минимизации функции. По сути, это метод нахождения минимального значения функции, обычно функции потерь в контексте машинного обучения. “Градиент” относится к наклону функции, а “спуск” подразумевает движение вниз по этому склону, чтобы найти минимальное значение.

Используя метод градиентного спуска, мы можем определить локальный минимум или максимум функции следующим образом:

Независимо от того, движемся ли мы к отрицательному градиенту или прочь от градиента функции в текущей точке, это даст локальный минимум той же функции.
Когда мы движемся к положительному градиенту или к градиенту функции в текущих точках, это даст локальный максимум функции.

Почему Это называется градиентным спуском?

Этот процесс называется градиентным спуском или наискорейшим спуском, и его основная цель – снизить стоимость функции с помощью итерации.

Он достигает этой цели в два этапа:

Сначала он вычисляет производную первого порядка функции, чтобы вычислить наклон функции.
После этого он удаляется от градиента, поэтому наклон увеличивается по сравнению с текущей точкой в альфа-раз. Здесь альфа известна как скорость обучения и помогает определить длину шага.

Алгоритм Градиентного спуска

Градиентный спуск – это алгоритм оптимизации в машинном обучении, используемый для минимизации функции, обычно функции потерь или затрат в обучающей модели. Центральная идея заключается в итеративной настройке параметров (например, весов в нейронной сети), чтобы найти минимальное значение функции.

Вот пошаговое объяснение алгоритма градиентного спуска в машинном обучении:

1. Начните с начальных параметров:

Вы начинаете с начальных значений параметров, которые пытаетесь оптимизировать. Они могут быть установлены случайным образом или с помощью некоторой эвристики.

2. Подсчитайте Убытки:

Оцените функцию потерь, используя текущий набор параметров. Функция потерь измеряет, насколько далеки прогнозы модели от фактических значений.

3. Вычислите градиент:

Рассчитайте градиент функции потерь по каждому параметру. Градиент – это вектор, который указывает в направлении наибольшего увеличения функции.

4. Определите направление:

Чтобы минимизировать потери, вам нужно двигаться в направлении, противоположном градиенту. Это связано с тем, что движение “под уклон” на кривой функции потерь приведет вас к ее минимальной точке.

5. Обновите параметры:

Отрегулируйте параметры в направлении, которое уменьшает потери. Это делается путем вычитания доли градиента из текущих параметров. Размер этой доли регулируется скоростью обучения.

6. Скорость обучения:

Скорость обучения является важнейшим гиперпараметром при градиентном спуске. Небольшая скорость обучения замедляет процесс, поскольку для достижения минимума требуются крошечные шаги. Большая скорость обучения может ускорить процесс, но рискует превысить минимальную и вызвать колебания или расхождения.

7. Итеративный процесс:

Повторите шаги вычисления потерь, вычисления градиента и итеративного обновления параметров. С каждой итерацией параметры должны приближаться к значениям, которые минимизируют функцию потерь.

8. Проверка сходимости:

Определите, сошелся ли алгоритм. Это может произойти, когда изменение функции потерь между итерациями ниже определенного порога или после заданного количества итераций.

9. Варианты градиентного спуска:

Пакетный градиентный спуск: Вычисляет градиент функции затрат с использованием всего набора данных. Это точно, но может быть очень медленным, особенно с большими наборами данных.
Стохастический градиентный спуск (SGD): Вычисляет градиент с использованием одной выборки или нескольких выборок на каждой итерации. Это намного быстрее, но может быть менее устойчивым на пути к минимуму.
Мини-пакетный градиентный спуск: Достигается баланс за счет вычисления градиента на небольших пакетах данных. Это более эффективно, чем пакетный градиентный спуск, и часто более плавно, чем SGD.

9. Применение:

Градиентный спуск используется в различных типах моделей машинного обучения, включая линейную и логистическую регрессию, нейронные сети и т.д. Это особенно ценно из-за его простоты и эффективности при оптимизации сложных моделей.

Типы градиентного спуска

На основе ошибок в различных моделях обучения алгоритм оптимизации градиентного спуска разделен на три категории. В зависимости от задачи и размера набора данных вы можете выбрать правильный алгоритм градиентного спуска. Существуют три типа градиентного спуска::

Пакетный градиентный спуск – подходит для небольших наборов данных
Стохастический градиентный спуск – подходит для больших наборов данных
Мини-пакетный градиентный спуск – компромисс между пакетным и стохастическим градиентным спуском, который обычно используется

1. Пакетный Градиентный Спуск

Пакетный градиентный спуск находит ошибку для каждой точки в обучающем наборе и обновляет модель после оценки всех обучающих примеров. Этот процесс называется эпохой обучения. Градиентный спуск вычисляет средний градиент функции затрат для всего обучающего набора и обновляет параметры в обратном направлении.

Это жадный подход, который требует от нас суммирования по всем примерам каждого обновления. Он гарантирует сходимость к глобальному минимуму, но является дорогостоящим и медленным, когда задействованы большие наборы данных.

Преимущества

Вычислительно эффективен, поскольку ресурсы используются для всех обучающих наборов данных.
Менее шумный по сравнению с другими видами градиентного спуска.
Обеспечивает стабильную сходимость.

2. Стохастический градиентный спуск

Этот тип градиентного спуска запускает один обучающий пример для каждой итерации. Таким образом, он обрабатывает эпоху обучения для каждого примера в наборе данных и обновляет параметры каждого примера по одному за раз.

Он выбирает обучающий пример случайным образом, вычисляет для него градиент функции затрат и обновляет параметры в противоположном направлении. Однако могут быть некоторые потери в эффективности вычислений по сравнению с системами пакетного градиента из-за частых обновлений, которые требуют большей скорости и детализации. Кроме того, это может быть шумным и может не сходиться.

Преимущества

Относительно быстрее вычисляется, чем пакетный градиентный спуск.
Может быть легко выделен в нужной памяти.
Повышение эффективности для больших наборов данных.

3. Мини-пакетный Градиентный спуск

Мини-пакетный градиентный спуск сочетает в себе преимущества пакетного и стохастического градиентного спуска. Он разделяет обучающие наборы данных на небольшие пакеты и обновляет каждый из них отдельно. Градиент небольшого подмножества обучающего набора известен как мини-пакет.

Оптимизатор градиентного спуска этого типа вычисляет средний градиент функции затрат для мини-пакета и обновляет параметры в обратном направлении. Поскольку он разбивает обучающие наборы данных на небольшие пакеты, это обеспечивает вычислительную эффективность пакетного градиентного спуска при сохранении скорости стохастического градиентного спуска.

Преимущества

Вычислительная эффективность
Легко помещается в выделенную память
Обеспечивает стабильную сходимость при градиентном спуске.

Как обновляются параметры В процессе градиентного спуска?

Во время градиентного спуска параметры модели обновляются итеративно с целью минимизации функции потерь. Обновление выполняется с использованием градиента функции потерь по каждому параметру.

Вот краткое описание того, как обновляются параметры во время градиентного спуска:

Вычислите градиент:

Сначала вычислите градиент функции потерь. Градиент – это вектор, который содержит частные производные функции потерь по каждому параметру в модели.

В простом двумерном случае, если ваши параметры равны w и b, градиент будет равен:

[dL/dw , dL/db]

где L – функция потерь.

Определите сумму обновления:

Величина, на которую вы обновляете параметры, определяется произведением скорости обучения и градиента.

Скорость обучения – это гиперпараметр, который определяет, насколько большой шаг вы делаете. Если оно слишком высокое, вы можете превысить минимум; если оно слишком низкое, алгоритму может потребоваться слишком много времени для сходимости.

Правило обновления:

Общее правило обновления для параметра θ задается:

Одновременное Обновление:

Крайне важно, чтобы все параметры обновлялись одновременно. Это означает, что сначала вы вычисляете градиент для всех параметров и только потом обновляете их. Использование градиента, вычисляемого перед обновлением любого параметра, гарантирует, что все обновления основаны на одних и тех же данных.

Итерация:

Этот процесс повторяется итеративно. На каждой итерации (или шаге) параметры приближаются к оптимальным значениям, которые минимизируют функцию потерь.

Шаги постепенно уменьшаются по мере приближения параметров к минимуму, поскольку величина градиента уменьшается.

Конвергенция:

В идеале, за несколько итераций параметры сходятся к значениям, которые минимизируют функцию потерь. Сходимость часто проверяется путем наблюдения за тем, падает ли изменение значения функции потерь ниже определенного небольшого порога, или путем установки максимального количества итераций.

Планирование скорости обучения:

Иногда, чтобы улучшить сходимость, скорость обучения корректируется с течением времени (снижается после определенного количества итераций), этот метод известен как планирование скорости обучения.

А вы что думаете?