Что такое активное обучение в ML? Типы, использование, преимущества, инструменты

Содержание

Что такое активное обучение?
Понимание Активного Обучения На примере
Виды активного обучения
1. Выборка на основе пула
2. Выборочный отбор проб на основе потока
3. Синтез запроса
Использование активного обучения
Как применяется Активное обучение?
Стратегии активного обучения
1. Выборка неопределенности
2. Запрос от комитета (QBC)
3. Ожидаемое Изменение модели
4. Методы, взвешенные по плотности
5. Ожидаемое уменьшение ошибок
6. Выборка разнообразия
7. Выборка маржи
Инструменты и фреймворки для активного обучения
modAL:
scikit-learn:
libact:
ALiPy:
Active Learning Lab (ALL):
Deep Active Learning Toolkit with PyTorch:
Inquiry:
BAAL (байесовское активное обучение):
Проблемы в активном обучении

Что такое активное обучение?

Активное обучение в машинном обучении – это тип контролируемого обучения, при котором алгоритм может выбирать данные, на основе которых он хочет учиться. Это позволяет алгоритму машинного обучения сканировать немаркированные обучающие данные и определять полезные точки данных для анализа.

Активное обучение создает высокопроизводительный классификатор и сводит размер обучающего набора данных к минимуму за счет активного выбора ценных точек данных.

После этого программа может запросить помеченный набор данных, например, тот, который содержит все ответы, или человеческий аннотатор, который информирует компьютер о том, что показано на изображении. Поскольку алгоритм выбирает точки данных, необходимые ему для обучения, количество точек данных, необходимых для анализа, может быть сравнительно меньше, чем при обучении под наблюдением.

Понимание Активного Обучения На примере

Представьте, что вы учите ребенка распознавать различные виды фруктов. Вы показываете ему яблоко, банан и виноград, и каждый раз, когда вы показываете им фрукт, вы называете его название. Это похоже на традиционное машинное обучение, когда компьютеру предоставляется большое количество данных (например, изображения фруктов) вместе с правильными ответами (например, названия фруктов), и он извлекает уроки из этого полного набора информации.

Теперь давайте подумаем об активном обучении.

При активном обучении ребенок (или, в нашем случае, компьютер), вместо того чтобы пассивно всему обучаться, начинает задавать вопросы. Представьте, что ребенок указывает на фрукт и спрашивает: “Это яблоко или банан?” Это похоже на компьютер в процессе активного обучения, который выбирает определенные фрагменты данных, в которых он не уверен, и просит помощи.

Ключевым моментом активного обучения является это взаимодействие. Компьютеру не просто передается огромное количество данных с метками. Вместо этого он просматривает данные, пытается их изучить и, когда находит что-то, в чем не уверен, обращается за помощью. Этот процесс более эффективен, потому что он фокусируется на том, чего компьютер не знает, вместо того, чтобы перебирать все подряд.

Это как если бы вы готовились к тестированию – вместо того, чтобы перечитывать весь учебник, вы сосредотачиваетесь на главах, которые кажутся вам наиболее сложными. Активное обучение делает нечто подобное для компьютеров – оно помогает им сосредоточить свое обучение на наиболее сложных или неопределенных частях, делая весь процесс обучения более быстрым и эффективным, особенно когда у нас нет большого количества помеченных данных (что похоже на наличие ответов в нашем примере с фруктами).

Виды активного обучения

Существует в основном три типа активного обучения:

1. Выборка на основе пула

При выборке на основе пула у вас есть большой пул немаркированных данных, но вы выбираете только несколько из этих точек данных для маркировки.

Алгоритм активного обучения оценивает весь пул и выбирает выборки, из которых он рассчитывает извлечь больше всего. Этот выбор обычно основан на том, насколько алгоритм неуверен в конкретной точке данных.

Например, в пуле изображений различных животных алгоритм может быть наиболее неуверенным в отношении размытого изображения и запросить его метку.

2. Выборочный отбор проб на основе потока

При таком подходе точки данных поступают по одной за раз или небольшим потоком, и алгоритм должен на лету решать, запрашивать ли метку.

Решение о запросе метки основывается на критерии, обычно на неопределенности модели относительно этой точки данных.

Этот тип полезен в сценариях реального времени, где данные генерируются непрерывно, например, в системах мониторинга на заводах, где каждое новое показание датчика является точкой данных.

3. Синтез запроса

Синтез запроса – это когда алгоритм активного обучения генерирует новые примеры для маркировки, а не выбирает из существующих данных.

Этот подход используется, когда невозможно или непрактично выполнять выборку из большого пула данных, или когда алгоритму требуются очень специфические типы данных для повышения его производительности.

Например, в сценарии, когда алгоритм учится распознавать геометрические фигуры, он может сгенерировать изображение с неоднозначной формой и запросить его метку.

Использование активного обучения

Активное обучение имеет несколько практических применений в различных областях, особенно в ситуациях, когда маркированных данных мало, маркировать дорого или когда учебная задача требует высокой точности.

Обработка естественного языка (НЛП)

Для таких задач, как анализ настроений, распознавание сущностей или языковой перевод, активное обучение помогает эффективно выбирать наиболее информативные образцы текста для маркировки, повышая производительность модели при меньшем объеме данных.

Анализ изображений и видео

В задачах компьютерного зрения, таких как обнаружение объектов, распознавание лиц или анализ медицинских изображений, активное обучение может значительно сократить объем необходимых помеченных данных, сосредоточившись на наиболее неоднозначных изображениях.

Научные исследования

В таких областях, как биология или химия, где маркировка данных часто требует экспертных знаний (например, для идентификации конкретных белков или соединений), активное обучение помогает расставить приоритеты в данных для экспертной оценки.

Аннотация данных для моделей машинного обучения

Активное обучение может упростить процесс аннотирования данных, гарантируя, что человеческие усилия будут сосредоточены на маркировке наиболее информативных образцов, тем самым повышая эффективность процесса обучения модели.

Системы рекомендаций

Активное обучение может быть использовано для повышения точности систем рекомендаций путем выборочного запроса отзывов пользователей по определенным товарам, тем самым улучшая понимание системой пользовательских предпочтений.

Контроль качества

На производстве активное обучение может помочь в системах обнаружения дефектов, сосредоточив внимание на неоднозначных случаях, когда система не уверена, соответствует ли продукт стандартам качества.

Распознавание речи

В приложениях преобразования речи в текст активное обучение может использоваться для отбора и маркировки разнообразных и сложных образцов речи для повышения надежности системы распознавания.

Обнаружение мошенничества

В сфере финансов или безопасности активное обучение может помочь в выявлении мошеннических транзакций или аномалий, сосредоточив внимание на наиболее подозрительных случаях для дальнейшего расследования.

Служба поддержки клиентов и чат-боты

Активное обучение может оптимизировать обучение чат-ботов и виртуальных помощников, выявляя и обозначая ключевые взаимодействия, которые требуют улучшений или трудны для понимания ботом.

Клинические испытания и здравоохранение

В здравоохранении активное обучение может помочь в постановке диагноза пациенту или в выявлении наиболее подходящих групп пациентов для клинических испытаний на основе неопределенных или новых медицинских случаев.

Как применяется Активное обучение?

Мы можем реализовать активное обучение с помощью трех основных подходов:

Подход с запросом принадлежности применяется к нескольким сценариям, в которых возможно генерирование точных точек данных. Здесь алгоритм генерирует свои гипотетические точки данных.
Потоковый подход, требующий значительного человеческого труда. Здесь оставшиеся точки данных оцениваются по одной за раз. Каждый раз, когда алгоритм находит полезные точки данных, он запрашивает для них метку.
Подход к выборке, основанный на пуле, который более эффективен, чем подход, основанный на потоке, требует гораздо больших вычислительных мощностей и памяти. При таком подходе сначала оценивается весь набор данных, чтобы алгоритм мог найти наиболее подходящие точки данных для разработки модели.

Стратегии активного обучения

Стратегии активного обучения определяют, каким образом алгоритм обучения должен выбирать наиболее информативные точки данных для маркировки. Эти стратегии имеют решающее значение для эффективности системы активного обучения.

Ниже приведены некоторые часто используемые стратегии активного обучения:

1. Выборка неопределенности

В этой стратегии алгоритм выбирает точки данных, для которых он имеет наименьшую уверенность в своих текущих прогнозах.

Например, в задаче классификации он может выбрать образцы, для которых нет наибольшей уверенности в том, к какому классу они принадлежат.

Это одна из самых простых и широко используемых стратегий в активном обучении.

2. Запрос от комитета (QBC)

В QBC несколько моделей (комитет) обучаются на текущих данных и голосуют за маркировку новых точек данных.

Затем алгоритм выбирает точки данных, в которых наблюдается наибольшее несогласие между членами комитета.

Этот метод эффективен при исследовании различных гипотез относительно полученных данных.

3. Ожидаемое Изменение модели

Эта стратегия выбирает точки данных, которые, если бы были помечены, вносили бы наибольшие изменения в текущую модель.

Например, он может выбрать образцы, которые наиболее существенно изменили бы параметры модели, если бы были включены в обучающий набор.

Он основан на идее, что большее изменение в модели может соответствовать более широким возможностям обучения.

4. Методы, взвешенные по плотности

Эти методы учитывают не только неопределенность прогнозов, но и плотность точек данных в пространстве объектов.

Идея состоит в том, чтобы отдавать предпочтение точкам данных, которые одновременно являются неопределенными и репрезентативными для плотной области в пространстве признаков, гарантируя, что изученная модель лучше поддается обобщению.

5. Ожидаемое уменьшение ошибок

Эта стратегия включает в себя выбор точек данных, которые, как ожидается, в наибольшей степени уменьшат будущую ошибку модели.

Это более сложная стратегия, поскольку она требует оценки влияния каждого потенциального запроса на будущую производительность модели.

6. Выборка разнообразия

Выборка с разнообразием направлена на выбор набора точек данных, которые отличаются друг от друга. Такой подход гарантирует, что алгоритм будет работать с большим разнообразием точек данных, снижая риск смещения в сторону определенного типа данных.

7. Выборка маржи

В задачах бинарной классификации эта стратегия выбирает выборки, для которых разница в вероятности между двумя возможными метками наименьшая.

Это те моменты, по которым модель практически не определилась и, таким образом, может предоставить ценную информацию для изучения.

Инструменты и фреймворки для активного обучения

Существует несколько доступных инструментов и фреймворков, которые поддерживают активное обучение, упрощая его реализацию в различных проектах машинного обучения. Эти инструменты часто поставляются со встроенными функциональными возможностями для различных стратегий активного обучения, управления данными и интеграции с моделями машинного обучения.

Модульный фреймворк активного обучения для Python, построенный поверх scikit-learn.
Он предлагает гибкий и расширяемый интерфейс для реализации пользовательских стратегий активного обучения.
modAL поддерживает активное обучение на основе пула, потока и синтеза запросов.

scikit-learn:

Хотя scikit-learn сам по себе не является активной обучающей библиотекой, он часто используется в сочетании с другими инструментами благодаря своей обширной коллекции алгоритмов машинного обучения.
Многие фреймворки активного обучения используют scikit-learn для обучения и оценки моделей.

libact:

Библиотека активного обучения на основе Python, предоставляющая множество методов активного обучения, включая выборку неопределенности и разбиение запросов по комитетам.
Он разработан таким образом, чтобы быть эффективным и масштабируемым для больших наборов данных.

ALiPy:

Активное обучение на Python (ALiPy) – это инструментарий, специально разработанный для активного обучения.
Он предоставляет различные стратегии запросов, экспериментальные настройки и оценочные показатели для исследований в области активного обучения.

Active Learning Lab (ALL):

Веб-инструмент активного обучения, который позволяет пользователям помечать данные, обучать модели и активно запрашивать у пользователя метки.
Это полезно для образовательных целей и небольших проектов.

Deep Active Learning Toolkit with PyTorch:

Инструментарий активного обучения для PyTorch, разработанный специально для приложений глубокого обучения.
Он поддерживает различные стратегии активного обучения, подходящие для глубоких нейронных сетей.

Inquiry:

Фреймворк на основе Python для выполнения активного обучения с использованием любой модели машинного обучения, которая соответствует интерфейсу scikit-learn.
Он предлагает простой API и легко интегрируется с существующими конвейерами машинного обучения.

BAAL (байесовское активное обучение):

Библиотека для байесовского активного обучения, особенно полезная при работе с моделями глубокого обучения.
BAAL может быть использован для оценки неопределенности модели, что имеет решающее значение для многих стратегий активного обучения.

Проблемы в активном обучении

Активное обучение, несмотря на его многочисленные преимущества, сопряжено с рядом проблем, которые могут повлиять на его эффективность и практичность:

Дефицит начальных данных: Для активного обучения обычно требуются некоторые исходные помеченные данные, чтобы начать процесс обучения. В некоторых случаях даже получение этого начального набора может быть сложной задачей, особенно если помеченных данных мало или их получение дорого.
Предвзятость выборки: Избирательный характер активного обучения может привести к предвзятости. В конечном итоге модель может больше узнать о точках данных, которые часто запрашиваются, и меньше о других важных областях пространства данных, что потенциально может привести к искаженному пониманию данных.
Репрезентативность запросов: Выбранные для запроса точки данных могут не отражать всего распределения данных. Это может препятствовать способности модели хорошо обобщать невидимые данные.
Эффективность стратегии запроса: Выбор наиболее эффективной стратегии запроса для конкретной задачи и набора данных может быть сложной задачей. Некоторые стратегии могут быть более подходящими, чем другие, и часто приходится идти на компромисс между сложностью стратегии и теми преимуществами, которые она предлагает.
Ограничения, связанные с участием человека в цикле: Активное обучение часто зависит от экспертов-людей, которые помечают запрашиваемые точки данных. Этот процесс может быть трудоемким и дорогостоящим. Кроме того, ограничивающим фактором может быть доступность и согласованность человеческих аннотаций.
Оценка производительности: Оценка производительности системы активного обучения может быть более сложной задачей, чем традиционные модели машинного обучения. Речь идет не только о конечной точности модели, но и о том, насколько эффективно модель достигает этой точности (т. Е. С минимальным количеством помеченных данных).
Проблема холодного запуска: При отсутствии достаточного количества исходных помеченных данных модели может быть трудно выполнять значимые запросы, что приводит к проблеме “холодного запуска”. Это особенно актуально в сложных проблемных пространствах, где даже для базового обучения модели требуется значительный объем помеченных данных.
Вопросы этики и конфиденциальности: В сценариях, где активное обучение связано с конфиденциальными данными (такими как медицинские записи или личная информация), возникают дополнительные опасения относительно конфиденциальности, безопасности данных и этичного использования данных.