Что такое обучение без учителя? Примеры, алгоритмы, типы

Содержание

Введение
Что такое обучение без учителя?
Примеры обучения без учителя
Типы неконтролируемых алгоритмов ML
Неконтролируемые алгоритмы обучения
1. K-Означает кластеризацию
2. Иерархическая Кластеризация
3. DBSCAN (пространственная кластеризация приложений с шумом на основе плотности)
4. Анализ основных компонентов (PCA)
5. t-распределенное стохастическое вложение соседей (t-SNE)
6. Самоорганизующиеся карты (СОМ)
7. Априорный алгоритм
8. Модели гауссовой смеси (GMM)
9. Автокодеры
10. Независимый компонентный анализ (ICA)
Преимущества обучения без учителя
Недостатки обучения без учителя

Введение

В детстве мы многому учимся у наших родителей. Тем не менее, мы получаем некоторую информацию из нашего собственного опыта ‒ бессознательно выявляя и применяя шаблоны в нашем окружении к новым ситуациям. В ИИ (искусственном интеллекте) именно так работает метод неконтролируемого обучения.

Неконтролируемое обучение – популярный подход к ML и ИИ, поскольку он включает алгоритмы, обученные на немаркированных данных, что позволяет им обнаруживать структуру и взаимосвязи в данных. Отныне в этом блоге вы будете раскрывать основы, плюсы и минусы, типичные приложения, типы и многое другое об обучении без учителя.

Итак, без лишних слов, давайте погрузимся глубже.

Что такое обучение без учителя?

Неконтролируемое обучение – это разновидность машинного обучения, которое имеет дело с немаркированными данными. В отличие от контролируемого обучения, когда модель обучается на наборе данных, который включает как входные данные, так и соответствующие выходные метки, неконтролируемое обучение предполагает обучение модели на данных без каких-либо помеченных ответов. Цель состоит в том, чтобы исследовать структуру и закономерности в данных.

Представьте, что вам дали большую кучу разных кусочков пазла, но, в отличие от обычного пазла, у вас нет картинки на коробке, которая помогала бы вам ориентироваться. Ваша задача – рассортировать эти кусочки и выяснить, как они могут сочетаться друг с другом. Это похоже на то, что делает Неконтролируемое обучение в искусственном интеллекте.

При обучении без учителя система искусственного интеллекта получает много данных, но эти данные не сопровождаются инструкциями или ярлыками, сообщающими ИИ, на что он смотрит. Искусственный интеллект должен просеять данные и начать разбираться в них самостоятельно.

Это похоже на сортировку кусочков головоломки – группирование похожих кусочков по цвету, рисунку или форме, даже если вы не знаете, какой должна быть конечная картинка.

Примеры обучения без учителя

Неконтролируемое машинное обучение находит свое применение в различных реальных сценариях, особенно в ситуациях, когда данные не поставляются с предопределенными метками или категориями:

Сегментация клиентов

В розничной торговле и маркетинге неконтролируемые алгоритмы машинного обучения используются для сегментации клиентов на основе их покупательского поведения, демографических данных или предпочтений. Это помогает компаниям адаптировать свои маркетинговые стратегии к различным группам клиентов, повышая вовлеченность клиентов и продажи.

Анализ социальных сетей

Неконтролируемые алгоритмы ML могут анализировать социальные сети для выявления сообществ или групп пользователей со схожими интересами или связями. Это может быть полезно для целевой рекламы, рекомендаций или понимания моделей поведения пользователей.

Обнаружение Аномалий

В сфере кибербезопасности неконтролируемое машинное обучение помогает обнаруживать необычные закономерности или аномалии, которые могут указывать на нарушение безопасности, например, необычные места входа в систему или схемы транзакций, предполагающие мошенничество.

Рекомендательные системы

Потоковые сервисы, такие как Netflix, или платформы электронной коммерции, такие как Amazon, используют неконтролируемое машинное обучение для анализа активности и предпочтений пользователей, рекомендуя фильмы, телешоу или продукты на основе того, что понравилось или было куплено похожими пользователями.

Обработка естественного языка

Неконтролируемые методы обучения используются при анализе текста, такие как тематическое моделирование, при котором анализируются большие объемы текстовых данных для выявления основных тем или обсуждаемых тем без какой-либо предварительной маркировки содержания.

Генетические и Биологические исследования

В биоинформатике алгоритмы кластеризации могут использоваться для группировки генов со сходными паттернами экспрессии, что может указывать на общую роль в биологическом процессе или общий механизм регуляции.

Анализ Рыночной Корзины

Розничные продавцы используют неконтролируемое машинное обучение для понимания моделей покупок клиентов. Анализируя данные о транзакциях, они могут идентифицировать продукты, которые часто покупаются вместе, и использовать эту информацию для размещения продукции или стратегий перекрестных продаж.

Распознавание изображений

В компьютерном зрении неконтролируемое обучение может использоваться для сегментации изображений, группировки их на основе сходства или идентификации шаблонов без предопределенных меток. Это имеет решающее значение в медицинской визуализации, анализе спутниковых изображений и системах распознавания лиц.

Уменьшение размерности

Такие методы, как анализ главных компонент (PCA), используются для уменьшения количества переменных в наборе данных при сохранении как можно большего количества важной информации, часто в качестве этапа предварительной обработки для других задач машинного обучения.

Кластеризация документов

Используется для разделения больших наборов документов, таких как новостные статьи, научные статьи или веб-контент, на отдельные категории в зависимости от их содержания для упрощения управления и поиска

Типы неконтролируемых алгоритмов ML

Неконтролируемое обучение в алгоритмах искусственного интеллекта далее классифицируется как-

Кластеризация

Кластеризация – это группирование объектов в кластеры таким образом, чтобы объекты с наибольшим сходством оставались в группе и имели меньшее сходство или вообще не имели его с объектами другой группы. Кластерный анализ выявляет общие черты между объектами данных и классифицирует их в зависимости от наличия этих общих черт.

Ассоциация

Это неконтролируемый метод обучения для нахождения взаимосвязей между переменными в базе данных. Он определяет набор элементов, встречающихся вместе в наборе данных. Правило ассоциации делает маркетинговую стратегию более практичной, например, люди, которые покупают товары, например хлеб, также склонны покупать масло / джем.

Типичным примером правила ассоциации является анализ рыночной корзины.

Неконтролируемые алгоритмы обучения

Неконтролируемое машинное обучение включает в себя различные алгоритмы, каждый из которых предназначен для анализа и поиска закономерностей в немаркированных данных. Вот некоторые из ключевых алгоритмов, используемых в неконтролируемом обучении.:

1. K-Означает кластеризацию

Один из простейших и наиболее часто используемых алгоритмов кластеризации. Он разбивает данные на K отдельных кластеров на основе их характеристик. Точки данных сгруппированы таким образом, что разница внутри каждого кластера минимальна.

2. Иерархическая Кластеризация

Этот алгоритм строит иерархию кластеров либо путем последовательного объединения меньших кластеров в более крупные (агломеративный), либо путем разделения большого кластера на более мелкие (дивизивный). Это особенно полезно для понимания структуры данных и часто визуализируется с помощью дендрограммы.

3. DBSCAN (пространственная кластеризация приложений с шумом на основе плотности)

Алгоритм кластеризации, который создает кластеры на основе плотности точек данных в регионе. Он особенно эффективен для данных с кластерами одинаковой плотности и отлично подходит для выявления выбросов или шума в данных.

4. Анализ основных компонентов (PCA)

Метод уменьшения размерности, который преобразует данные в новую систему координат с осями (главными компонентами), упорядоченными по объясняемой ими дисперсии. PCA широко используется для упрощения наборов данных со многими функциями при сохранении их основных характеристик.

5. t-распределенное стохастическое вложение соседей (t-SNE)

Метод нелинейного уменьшения размерности, особенно хорошо подходящий для встраивания многомерных данных для визуализации в двух- или трехмерном пространстве. Он часто используется при визуализации сложных наборов данных, таких как в геномике и нейроинформатике.

6. Самоорганизующиеся карты (СОМ)

СОМЫ – это тип искусственной нейронной сети, которая использует неконтролируемое обучение для создания низкоразмерного (обычно двумерного) представления входного пространства обучающих выборок, сохраняя топологические свойства входного пространства.

7. Априорный алгоритм

Используемый для изучения правил ассоциации, это классический алгоритм интеллектуального анализа данных. Он используется для анализа часто встречающихся наборов товаров и соответствующих правил ассоциации. Он широко используется в анализе рыночной корзины для выявления товаров, которые часто покупаются вместе.

8. Модели гауссовой смеси (GMM)

Эти модели предполагают, что точки данных генерируются из смеси нескольких гауссовых распределений с неизвестными параметрами. Их можно использовать для кластеризации путем нахождения параметров распределения, которые максимизируют вероятность наблюдаемых данных.

9. Автокодеры

Тип нейронной сети, используемой для обучения эффективному кодированию немаркированных данных. Они работают путем сжатия данных в представление меньшей размерности, а затем восстанавливают выходные данные обратно в исходную форму ввода.

10. Независимый компонентный анализ (ICA)

ICA используется для разделения многомерного сигнала на аддитивные подкомпоненты, которые максимально независимы. Он часто используется при обработке звука (например, при разделении различных инструментов в музыкальном произведении) и обработке изображений.

Преимущества обучения без учителя

Используемые для более сложных задач при обучении без учителя, у нас нет помеченных входных данных.
Неконтролируемое обучение в машинном обучении предпочтительнее, поскольку легче получить немаркированные данные, чем помеченные.

Недостатки обучения без учителя

Неконтролируемое обучение в области искусственного интеллекта по своей сути является более сложной задачей, поскольку оно не дает соответствующего результата.
Результат работы алгоритма обучения без учителя, возможно, потребуется сделать более точным, поскольку входные данные должны быть помечены, а алгоритмы должны заранее знать точный результат.

А вы что думаете?