Вариационный автоэнкодер (VAE): Архитектура, Модели, Полное руководство

Содержание

Что такое Вариационный автоэнкодер?
Кодер и декодер в VAE
Кодировать
Декодер
Основы вариационного автоэнкодера
Архитектура вариационного автоэнкодера (VAE)
Модели VAE
Вариационный автоэнкодер против традиционного Автоэнкодера
Цель и подход
Представление Скрытого Пространства
Генерация данных
Функция обучения и потери
Надежность и обобщение
Математические концепции, лежащие в основе вариационного автоэнкодера (VAE)
Применение вариационных автокодеров
Генеративные состязательные сети против Вариационного Автоэнкодера

Что такое Вариационный автоэнкодер?

Вариационный автоэнкодер (VAE) – это тип модели искусственного интеллекта, который особенно хорош при обработке данных, имеющих большое разнообразие и сложность, таких как изображения или звуки. Представьте это как высококвалифицированного художника, который может не только скопировать существующую картину, но и создать новые, похожие произведения искусства.

VAE начинается с изучения сути или ключевых характеристик предоставляемых данных. Например, если вы скормите ему много фотографий кошек, он узнает, что делает кошку кошкой (например, уши, усы и хвосты).

Затем VAE использует это понимание и преобразует его в сжатую форму, почти как создание секретного кода, который отражает сущность кошки. Эта часть называется кодировщиком.

После этого вариационные автокодеры добавляют немного случайности при создании этого кода. Эта случайность позволяет VAE не только копировать исходные изображения, но и генерировать новые, похожие изображения. Это похоже на то, что наш художник не просто копирует изображение кошки, но и рисует новые кошачьи позы или выражения, которых не было на оригинальных снимках.

Последним шагом является преобразование этого кода обратно в картинку. Эта часть называется декодером. Он берет суть (с небольшим добавлением креативности) и воссоздает ее обратно в образ – либо воссоздание оригинала, либо что-то новое, но похожее.

Кодер и декодер в VAE

Вариационный автоэнкодер или VAE в машинном обучении состоит из двух основных компонентов: кодера и декодера.

Кодировать

Эта часть берет входные данные и сжимает их в меньшее по размеру и более плотное представление. Этот процесс подобен разбиению подробной истории на ключевые моменты.

Декодер

Декодер делает обратное. Он берет сжатые данные и пытается восстановить исходные данные как можно точнее. Это сродни тому, чтобы взять краткое изложение и попытаться воссоздать из него полную историю.

Основы вариационного автоэнкодера

Концепция автоэнкодеров: Представьте себе автоэнкодер как механизм сжатия и распаковки данных. Это все равно что взять большой набор информации и найти способ представить его более компактно (сжатие), а затем иметь возможность восстановить исходные данные из этого компактного представления (декомпрессия).
Скрытое пространство: Сжатые данные представлены в так называемом “скрытом пространстве”. Это пространство содержит закодированную (сжатую) информацию. Способ представления данных здесь имеет решающее значение, поскольку он определяет, насколько хорошо исходные данные могут быть восстановлены.
Процесс обучения: Автоэнкодеры учатся выполнять это сжатие и декомпрессию с помощью процесса, называемого обучением. Во время обучения автоэнкодеру предоставляется большое количество данных (таких как изображения, тексты и т.д.), и он постоянно пытается улучшить свои возможности сжатия и декомпрессии. Цель состоит в том, чтобы выходные данные (распакованные данные) были как можно ближе к входным (исходным данным).

Архитектура вариационного автоэнкодера (VAE)

Архитектура вариационного автоэнкодера (VAE) может быть понята как расширение традиционного автоэнкодера, но с изюминкой в его внутренней механике для обработки вероятностного характера процесса кодирования.

Входной слой

VAE начинается с входного слоя, как и любая нейронная сеть. Этот слой принимает данные, которые вы хотите смоделировать, которые могут быть любыми, от изображений до текста.

Сеть кодировщика:

Первым основным компонентом VAE является сеть кодирования. Эта часть VAE принимает входные данные и обрабатывает их через несколько слоев (которые могут быть плотными слоями, сверточными слоями и т.д., В зависимости от типа входных данных).

Задача кодировщика – научиться эффективно сжимать входные данные в меньшее по размеру и более абстрактное представление. Однако, в отличие от традиционных автоэнкодеров, кодировщик VAE не выдает единственную сжатую версию входных данных. Вместо этого он выводит параметры распределения вероятностей: обычно среднее значение и дисперсию (или иногда логарифмическую дисперсию).

Трюк с Латентным пространством и репараметризацией

Выходные данные кодировщика используются для определения распределения вероятностей (обычно гауссовского) в скрытом пространстве. В этом скрытом пространстве VAE представляет сжатые знания, которые он узнал о входных данных.

Чтобы сгенерировать выборку из этого пространства для восстановления декодером, VAE использует трюк с репараметризацией. Это включает в себя выборку из стандартного нормального распределения, а затем масштабирование и сдвиг этой выборки с использованием среднего значения и дисперсии, выводимых кодером. Этот трюк позволяет по-прежнему применять градиентный спуск, поскольку процесс выборки становится дифференцируемым.

Сеть Декодера

Следующий компонент – сеть декодера. Он берет выбранные точки из скрытого пространства и пытается восстановить исходные входные данные по ним.

Как и кодировщик, декодер состоит из нескольких слоев нейронных сетей (которые могут быть плотными, деконволюционными и т.д.). Декодер учится делать противоположное кодировщику: он берет абстрактную, сжатую информацию и восстанавливает из нее подробные исходные данные.

Выходной слой

Последний уровень VAE – это выходной уровень, на котором представлены восстановленные данные. Цель состоит в том, чтобы этот выходной уровень был как можно ближе к исходным входным данным.

Функция потерь

VAE обучается с использованием специализированной функции потерь, состоящей из двух компонентов:

Потери при восстановлении, которые гарантируют, что восстановленные выходные данные точно соответствуют исходным входным данным.
Дивергенция KL, которая измеряет, насколько изученное распределение в скрытом пространстве отклоняется от предыдущего распределения (обычно стандартного нормального распределения). Эта часть функции потерь гарантирует, что скрытое пространство обладает хорошими свойствами, которые позволяют обобщать и генерировать новые данные.

Модели VAE

Вариационные автоэнкодеры (VAEs) значительно эволюционировали с момента своего создания, что привело к разработке различных моделей, расширяющих базовые принципы VAEs для решения конкретных задач и приложений.

Ниже приведены некоторые известные варианты и модели VAEs:

Стандартный VAE

Это базовая форма VAE, состоящая из кодера, который преобразует входные данные в скрытое распределение, и декодера, который восстанавливает данные из этого скрытого пространства. Он используется для понимания фундаментальных концепций VAEs.

Условный VAE (CVAE)

CVAEs являются расширением VAEs, где и кодировщик, и декодер зависят от некоторой дополнительной информации, такой как метки или атрибуты. Эта модель полезна для таких задач, как генерация условных изображений, когда требуется генерировать изображения с определенными характеристиками.

Бета-ВАЭ (β-VAE):

В β-VAEs к стандартной функции потерь VAE добавляется дополнительный гиперпараметр (β). Взвешивая член дивергенции KL, β-VAEs могут добиться лучшего распутывания скрытых переменных, облегчая понимание отдельных объектов, представленных в скрытом пространстве, и манипулирование ими.

Вариационный RNN (VRNN)

Комбинируя VAE с рекуррентными нейронными сетями (RNN), VRNN предназначены для обработки последовательных данных. Они применимы в таких задачах, как моделирование последовательности и прогнозирование, особенно эффективны при обработке данных временных рядов или текста.

Распутанный VAE (фактор VAE, β-TCVAE)

Эти варианты сосредоточены на распутывании скрытых переменных, что означает, что они направлены на то, чтобы каждая переменная в скрытом пространстве фиксировала одну отдельную особенность данных. Это полезно в сценариях, где представляют интерес независимые факторы вариации данных.

Векторно-квантованный-VAE (VQ-VAE)

VQ-VAEs используют методы векторного квантования для изучения дискретных скрытых представлений, в отличие от непрерывных скрытых переменных в стандартных VAEs. Такой подход полезен для получения более связных и разнообразных результатов, особенно в таких задачах, как синтез речи и создание музыки.

Иерархический VAE

Иерархические VAE структурируют скрытое пространство иерархическим образом, позволяя захватывать различные уровни абстракции на разных уровнях иерархии. Это полезно для сложных задач генерации данных, где важны несколько уровней детализации и абстракции.

Состязательные автокодеры (AAE)

AAEs сочетают принципы VAEs с соревновательным обучением (аналогично GANs). В AAEs состязательная сеть используется для упорядочивания скрытого пространства, побуждая его соответствовать определенному предыдущему распределению, что приводит к улучшению качества генерации.

Шумоподавляющий ВАЭ

Это VAE, специально разработанные для обработки зашумленных данных. Они учатся кодировать и декодировать данные при удалении шума, что делает их полезными в таких приложениях, как шумоподавление или восстановление изображений.

Последовательные изменения

Разработанные для обработки последовательных или временных данных, эти VAE включают механизмы для обработки данных там, где временные взаимосвязи имеют решающее значение, например, при обработке видео или естественного языка.

Вариационный автоэнкодер против традиционного Автоэнкодера

Давайте разберем ключевые различия между VAE и традиционным автоэнкодером.:

Цель и подход

Традиционные автоэнкодеры: Их основная цель – изучить компактное представление данных (кодирование), а затем максимально точно восстановить исходные данные из этого представления (декодирование). Они сосредоточены на минимизации ошибки восстановления – разницы между исходными входными данными и их восстановленными выходными данными.
VAEs: Хотя они также кодируют и декодируют данные, VAEs внедряют вероятностный подход. Они предназначены не только для изучения представления, но и для понимания распределения данных. Это означает, что они не просто копируют входные данные, но и узнают о том, как эти данные структурированы и разнообразны в статистическом смысле.

Представление Скрытого Пространства

Традиционные автоэнкодеры: Они сопоставляют входные данные с фиксированной точкой в скрытом пространстве. Представление в скрытом пространстве – это специфическая детерминированная функция входных данных.
VAEs: Они сопоставляют входные данные с распределением в скрытом пространстве. Вместо кодирования входных данных в виде одной точки, VAEs кодируют их как распределение по скрытому пространству. Это позволяет им улавливать неопределенность и вариации в данных.

Генерация данных

Традиционные автоэнкодеры: Они изначально не предназначены для генерации новых данных. Их реконструкция иногда может быть размытой или менее точной из-за детерминированного характера их скрытого пространства.
VAEs: Они преуспевают в создании новых данных, похожих на то, чему их обучали. Вероятностный характер их скрытого пространства позволяет им отбирать образцы и генерировать разнообразные и новые результаты, что делает их очень полезными в таких задачах, как генерация изображений, передача стиля и т.д.

Функция обучения и потери

Традиционные автокодеры: Они используют функцию потерь, которая обычно измеряет разницу между входом и выходом (ошибка восстановления).
VAEs: Они используют более сложную функцию потерь. Она включает не только ошибку восстановления, но и термин, который побуждает изученное распределение приближаться к предыдущему распределению (часто нормальному распределению). Это известно как дивергенция Кульбака-Лейблера (KL).

Надежность и обобщение

Традиционные автоэнкодеры: Иногда они могут перестроиться под обучающие данные, научившись очень хорошо их копировать, но испытывая трудности с данными, которые отличаются от того, что они видели.
VAEs: Из-за их вероятностной природы и способа, которым они упорядочивают скрытое пространство, VAEs, как правило, более надежны и лучше поддаются обобщению на новые данные.

Математические концепции, лежащие в основе вариационного автоэнкодера (VAE)

Понимание ключевых математических концепций, лежащих в основе машинного обучения VAE, включает в себя изучение распределений вероятностей и дивергенции Кулбака-Лейблера (KL).

Распределения вероятностей

В VAEs распределения вероятностей используются для моделирования данных и скрытых переменных. Идея состоит в том, чтобы предположить, что существует некоторое базовое распределение вероятностей, из которого извлекаются наши выборки данных (например, изображения или текст).

VAE пытается изучить это распределение. Вместо кодирования входных данных в фиксированную точку (подобно традиционным автоэнкодерам), VAE кодируют входные данные в распределение, обычно гауссово (или нормальное) распределение, характеризующееся средним значением (центральная точка) и дисперсией (разброс).

Скрытое пространство и распределения

Скрытое пространство в VAEs – это место, куда кодируются входные данные. Но в отличие от традиционных автокодеров, каждая точка в этом пространстве – это не просто сжатое представление данных; оно представляет собой целое распределение.

Каждая точка входных данных сопоставляется параметрам (среднему значению и дисперсии) гауссовского распределения. Этот вероятностный подход позволяет VAEs генерировать новые точки данных путем выборки из этих распределений.

Дивергенция KL

Дивергенция KL – это мера того, насколько одно распределение вероятностей отличается от другого. В VAEs оно используется как часть функции потерь.

Расхождение KL в VAEs измеряет разницу между двумя распределениями ключей: распределением, полученным кодировщиком, и предыдущим распределением (обычно стандартным распределением по Гауссу).

Минимизируя расхождение KL, VAE рекомендуется изучать распределения в скрытом пространстве, которые максимально приближены к стандартному гауссову. Такая регуляризация гарантирует, что скрытое пространство не просто запоминает обучающие данные, но и усваивает хорошо структурированное и обобщаемое представление.

Трюк с Репараметризацией

Основной проблемой при обучении VAE является обратное распространение через случайный узел (поскольку выборка из распределения является случайным процессом). Трюк с репараметризацией – это метод, позволяющий преодолеть это.

Вместо прямой выборки из распределения VAEs выполняет выборку из стандартного распределения Гаусса, а затем преобразует выборку, используя изученное среднее значение и дисперсию. Это делает процесс дифференцируемым и поддающимся градиентному спуску.

Функция потерь

Функция потерь в VAEs состоит из двух слагаемых: потери при восстановлении (как и в традиционных автоэнкодерах, измеряющих, насколько хорошо декодированный выходной сигнал соответствует исходному входному сигналу) и расхождение KL.

Баланс между этими двумя терминами имеет решающее значение. Потеря при восстановлении гарантирует, что выходные данные будут максимально приближены к входным, в то время как расхождение KL гарантирует, что распределения в скрытом пространстве упорядочены и не перестраиваются под обучающие данные.

Применение вариационных автокодеров

Вариационные автоэнкодеры (VAE) имеют широкий спектр применений благодаря их способности глубоко изучать представления сложных данных и генерировать новые выборки данных. Вот некоторые из ключевых областей, в которых VAE особенно полезны.:

Генерация изображения

VAE широко используются для создания новых изображений, похожих на данный набор данных. Это может быть особенно полезно в таких областях, как цифровое искусство и дизайн, где вы можете создавать различные стили и шаблоны на основе существующих произведений искусства.

Увеличение объема данных

В машинном обучении наличие большего количества данных часто приводит к созданию более совершенных моделей. VAEs может генерировать новые синтетические выборки данных, которые можно использовать для расширения существующих наборов данных, что особенно полезно, когда доступные данные ограничены или их сбор обходится дорого.

Обнаружение Аномалий

VAE могут быть обучены на наборе данных, представляющем “нормальное” поведение или структуру. После обучения они могут выявлять аномалии или выбросы, обнаруживая выборки, которые значительно отличаются от изученного распределения. Это полезно при выявлении мошенничества, контроле качества на производстве или мониторинге в здравоохранении.

Извлечение признаков и уменьшение размерности

Подобно традиционным автоэнкодерам, VAEs можно использовать для извлечения признаков и уменьшения размерности. Они могут научиться кодировать данные в более компактное и осмысленное представление, что может быть полезно для повышения производительности алгоритмов классификации.

Открытие лекарства

В фармацевтической промышленности VAEs могут использоваться для создания новых молекулярных структур для лекарственных препаратов-кандидатов. Изучая распределение молекулярных структур, VAEs могут предлагать новые соединения, которые могут быть эффективны в качестве лекарств.

Системы рекомендаций

VAE могут использоваться для понимания предпочтений и поведения пользователей в системах рекомендаций. Изучая базовую структуру взаимодействия пользователя с товаром, они могут генерировать персонализированные рекомендации.

Генерация текста и обработка естественного языка (NLP)

В НЛП VAE используются для генерации связного и разнообразного текста или для изучения скрытых представлений текстовых данных, что может быть полезно в таких задачах, как анализ настроений, машинный перевод или диалоговые агенты.

Передача стиля

VAE способны извлекать представления стилей из данных, которые можно использовать для изменения стиля заданных входных данных при сохранении их содержания. Это особенно популярно при изменении художественного стиля изображений.

Финансовое моделирование

В финансах VAEs может использоваться для моделирования рисков, определения цены опционов и генерации синтетических финансовых временных рядов для обучения и тестирования модели.

Синтез речи

VAEs может применяться для генерации человекоподобной речи, использоваться в системах преобразования текста в речь, а также для создания разнообразных речевых паттернов для виртуальных помощников или развлекательных целей.

Генеративные состязательные сети против Вариационного Автоэнкодера

Вот табличное сравнение генеративных состязательных сетей (GAN) и вариационных автокодеров (VAEs), двух популярных генеративных моделей в искусственном интеллекте:

Особенность	Генеративные состязательные сети (GAN)	Вариационные автокодеры (VAEs)
Основная концепция	Состоит из двух нейронных сетей, генератора и дискриминатора, конкурирующих друг с другом.	Основан на принципах автоэнкодеров с вероятностным уклоном, использующих сеть кодировщика и декодера.
Цель	Генератор создает данные, а дискриминатор оценивает их. Цель состоит в том, чтобы обучить генератор создавать данные, неотличимые от реальных.	Изучить представление скрытого пространства и распределение данных и сгенерировать новые данные путем выборки из этого пространства.
Механизм обучения	Обучается с помощью минимаксной игры, в которой генератор и дискриминатор обучаются одновременно в состязательном процессе.	Обучен путем оптимизации функции потерь, состоящей из двух частей: потери при восстановлении и расхождения KL.
Качество выходного сигнала	Известен получением высококачественных, четких и реалистичных результатов, особенно при создании изображений.	Как правило, выходные данные получаются более плавными и менее четкими, что иногда может приводить к размытым изображениям.
Стабильность в Тренировках	Обучение может быть нестабильным и часто требует тщательной настройки гиперпараметров. Подвержен таким проблемам, как сворачивание режима.	В целом более стабилен и последователен в тренировках по сравнению с GANs.
Интерпретация Скрытого Пространства	Интерпретация скрытого пространства не является однозначной из-за состязательного процесса обучения.	Обладает структурированным и интерпретируемым латентным пространством, что является прямым следствием его функции обучения и потери.
Контроль Над Генерируемым Результатом	Меньший контроль над спецификой генерируемого результата.	Больший контроль над генерируемым результатом благодаря структурированному характеру скрытого пространства.
Приложения	Широко используется для создания изображений и видео, передачи стиля и получения сверхразрешения.	Обычно используется в таких задачах, как реконструкция изображений, обнаружение аномалий и расширение данных.
Простота использования	Обучение и оптимизация могут быть более сложными из-за динамики состязательности.	Относительно проще в обучении и внедрении благодаря прямому подходу к оптимизации.

А вы что думаете?