Что такое обнаружение объекта? Алгоритмы, модель, способы использования

Содержание

Введение
Что такое обнаружение объекта?
Что такое обнаружение объекта?
Лучшие алгоритмы обнаружения объектов
Рис. 1. Гистограмма ориентированных градиентов (HOG)
2. Основанные на регионах Сверточные нейронные сети (R-CNN)
3. Более быстрый R-CNN
4. Детектор одиночного выстрела (SSD)
5. YOLO (Ты смотришь только один раз)
Преимущества YOLO
Ограничения YOLO
Версии YOLO
Когда использовать YOLO?
Примеры использования
6. RetinaNet
Как работает обнаружение объектов в искусственном интеллекте?
Использование метода обнаружения объектов

Введение

Человеческий мозг может легко обнаруживать и идентифицировать объекты на изображении, потому что зрительная система человека быстра и точна, выполняя сложные задачи, такие как идентификация множества объектов и обнаружение препятствий, практически не задумываясь. Располагая большими объемами данных, более быстрыми графическими процессорами и улучшенными алгоритмами, мы теперь можем эффективно обучать компьютеры обнаруживать и классифицировать несколько объектов на изображении с высокой точностью.

При такой идентификации и локализации детектор объектов подсчитывает объекты на изображении, определяет и отслеживает их точное местоположение, точно маркируя их.

Например, представьте картинку, на которой изображены две собаки и человек. Обнаружение объектов позволяет сразу классифицировать типы обнаруженных предметов, а также находить их примеры на изображении. Давайте подробно расскажем об обнаружении объектов на изображении в программе “Компьютерное зрение”, а также об алгоритме, моделях, способах использования и т.д.

Что такое обнаружение объекта?

Обнаружение объектов в ИИ – это задача идентификации и определения местоположения интересующих объектов в изображении или видеокадре. Цель состоит в том, чтобы определить присутствие, положение и часто протяженность объектов в данной сцене.

Это важнейшая задача в компьютерном зрении, которая находит различные применения, включая видеонаблюдение, автономные транспортные средства, поиск изображений и дополненную реальность.

При обнаружении объектов модели обучаются с использованием избыточного количества аннотированных визуальных элементов для выполнения процесса с использованием новой информации. Это так же просто, как ввести входные визуальные элементы и получить полностью размеченный выходной визуальный элемент.

Важным компонентом здесь является ограничивающая рамка обнаружения объекта. Она определяет края объекта, помеченные четким четырехугольником, обычно прямоугольником или квадратом. Их сопровождает этикетка предмета, будь то человек, транспортное средство или животное, для описания целевого объекта. Ограничивающие рамки накладываются друг на друга, чтобы продемонстрировать несколько объектов на данном снимке, если модель заранее знает об объектах, которые она помечает.

Что такое обнаружение объекта?

Лучшие алгоритмы обнаружения объектов

Как долго вы искали потерянные ключи от комнаты в неопрятном доме? Это случается с большинством из нас и остается неприятным опытом. Но что, если простой компьютерный алгоритм поможет вам найти ключи за доли секунды? В этом сила алгоритмов обнаружения объектов.

Мы рассмотрим наиболее популярные алгоритмы, понимая их рабочую теорию, преимущества и недостатки в конкретных сценариях.

Рис. 1. Гистограмма ориентированных градиентов (HOG)

Впервые введен в 1986 году, свинья является одним из старейших методов распознавания образов. Несмотря на некоторые изменения, этот подход не получил большой популярности вплоть до 2005 года, когда его начали использовать в различных компьютерное зрение задачи. HOG использует функцию извлечения объектов для идентификации объектов на изображении.

Дескриптор объектов, используемый в HOG, представляет часть изображения, из которой мы извлекаем только необходимую информацию. Дескриптор объектов преобразует общий размер изображения в массив или вектор объектов. HOG использует процедуру градиентной ориентации для локализации критических частей изображения.

Ограничения

Хотя HOG был революционным на начальных этапах обнаружения объектов, с этим методом было связано несколько проблем. Он отнимает много времени при сложном вычислении пикселей на изображениях и неэффективен в конкретных сценариях обнаружения объектов с более ограниченными пространствами.

Когда использовать HOG?

Чтобы протестировать другие алгоритмы обнаружения объектов и их производительность, используйте HOG в качестве первого метода обнаружения объектов. Несмотря на это, HOG находит широкое применение в обнаружении объектов и распознавании лицевых ориентиров с приличной точностью.

Примеры использования

Одним из вариантов использования HOG является обнаружение пешеходов из-за его плавных краев. Другие приложения включают обнаружение конкретных объектов.

2. Основанные на регионах Сверточные нейронные сети (R-CNN)

R-CNN улучшает процедуру обнаружения объекта по сравнению с методами HOG и SIFT. В этой модели мы пытаемся извлечь существенные признаки, используя выборочные признаки, и процесс выбора наиболее значимых извлечений вычисляется с помощью определенного алгоритма поиска, который может достичь этих важных региональных предложений.

Ограничения

Несмотря на получение хороших результатов по извлечению объектов с помощью предварительно обученных моделей CNN, общий процесс извлечения всех предложенных регионов и лучших регионов с помощью новейших алгоритмов затягивается.

Другим серьезным недостатком является низкая скорость обучения и большое время прогнозирования. Решение требует использования значительных вычислительных ресурсов, что повышает общую осуществимость процесса. Следовательно, общая архитектура довольно дорогая.

Иногда в начале может произойти неудачный выбор кандидатов из-за отсутствия улучшений, которые можно внести на этом конкретном этапе. Это может вызвать множество проблем в обученной модели.

Когда использовать R-CNN?

Используйте R-CNN в качестве первой базовой линии для тестирования производительности моделей обнаружения объектов на изображениях. Время, затрачиваемое на прогнозирование изображений и объектов, может занимать больше времени, поэтому предпочтение отдается современным версиям R-CNN.

Примеры использования

Существуют различные приложения R-CNN для решения множества типов задач, связанных с обнаружением объектов, таких как определение местоположения текста на изображении, отслеживание объектов с помощью камеры, установленной на дроне, и включение функции обнаружения объектов в Google Lens.

3. Более быстрый R-CNN

Вместо рассмотрения всех подсегментов алгоритм быстрого обнаружения объектов R-CNN пропускает изображение через предварительно обученную Сверточную нейронную сеть. Объединение областей интереса (RoI) – это уникальный метод, который принимает 2 входных сигнала предварительно обученной модели и алгоритм выборочного поиска, чтобы получить полностью связанный уровень с выходом.

Ограничения

Одним из основных недостатков более быстрого метода R-CNN является временная задержка в предложении нескольких объектов. Скорость иногда зависит от типа используемой системы.

Когда использовать более быстрый R-CNN?

Время прогнозирования сокращается по сравнению с другими методами CNN. В то время как R-CNN обычно требует около 40-50 секунд для прогнозирования объектов на изображении, быстрый R-CNN занимает около 2 секунд, но возвращает оптимальный результат всего за 0,2 секунды.

Примеры использования

Примеры использования более быстрого R-CNN аналогичны примерам, упомянутым в R-CNN. Однако мы можем выполнять эти задачи оптимально и достигать результатов более эффективно с помощью более быстрого R-CNN.

4. Детектор одиночного выстрела (SSD)

Для многоуровневых прогнозов SSD – это один из быстрых способов выполнения задач обнаружения объектов в режиме реального времени. Более быстрые методологии R-CNN позволяют достичь высокой точности прогнозирования; весь процесс занимает довольно много времени и требует выполнения задания в реальном времени со скоростью около 7 кадров в секунду.

Детектор с одним кадром решает эту проблему, увеличивая частоту кадров в секунду почти в 5 раз по сравнению с более быстрой моделью R-CNN. Он удаляет сеть предложений регионов и вместо этого использует многомасштабные функции и флажки по умолчанию.

Ограничения твердотельного накопителя

При значительном повышении производительности твердотельный накопитель снижает разрешение изображения до более низкого качества. Архитектура твердотельного накопителя работает хуже, чем более быстрый R-CNN для объектов малого масштаба.

Когда использовать SSD-накопитель?

Детектор с одним выстрелом часто является предпочтительным алгоритмом обнаружения объекта. Основная причина использования датчика с одним кадром заключается в том, что нам в основном нравятся более быстрые прогнозы на изображении для обнаружения более заметных объектов, где точность не является чрезвычайно важной задачей. Однако для получения более точных прогнозов для более мелких и точных объектов необходимо учитывать другие методы.

Примеры использования

SSD можно обучать и экспериментировать со многими наборами данных, такими как PASCAL VOC, COCO и ILSVRC. Они могут хорошо работать при обнаружении более значимых объектов, таких как люди, стулья и столы, а также других подобных объектов.

5. YOLO (Ты смотришь только один раз)

YOLO – самая популярная архитектура модели и алгоритм обнаружения объектов. В этой модели используется один из лучших архетипов нейронной сети для обеспечения высокой точности и скорости обработки, что является решающей причиной ее популярности.

Преимущества YOLO

Скорость вычислений и обработки данных YOLO относительно высока, особенно в режиме реального времени.
Обеспечивает общую высокую точность при уменьшении фоновых ошибок.
Архитектура YOLO позволяет модели эффективно изучать и развивать понимание многочисленных объектов.

Ограничения YOLO

Он не может обнаруживать объекты меньшего размера в видео или изображении из-за более низкой скорости воспроизведения.
Не могу заметить две вещи, которые невероятно близки друг к другу из-за недостатка ограничивающих рамок.

Версии YOLO

Это один из самых успешных и влиятельных алгоритмов обнаружения объектов. В 2016 году, с внедрением архитектуры YOLO, последовательные версии YOLO v2 и YOLO v3 появились в 2017 и 2018 годах. Позже было выпущено три быстрых релиза: YOLO v4, YOLO v5 и PP-YOLO.

Каждая из последних версий YOLO была немного улучшена по сравнению с предыдущими. Также была выпущена крошечная версия YOLO, обеспечивающая поддержку обнаружения объектов на встроенных устройствах.

Когда использовать YOLO?

Архитектура обнаружения объектов изображений YOLO в основном предпочтительна для обнаружения объектов в режиме реального времени. Она обеспечивает высокую точность при выполнении задач обработки в режиме реального времени с достаточной скоростью и частотой кадров в секунду в зависимости от устройства, на котором запущена программа.

Примеры использования

Некоторые известные варианты использования архитектуры YOLO, помимо обнаружения объектов на многочисленных объектах, включают обнаружение транспортных средств, животных и людей.

6. RetinaNet

Представленный в 2017 году и являющийся одной из лучших моделей, RetinaNet с возможностями обнаружения объектов одиночным выстрелом превосходит возможности обнаружения объектов моделей Yolo v2 и SSD. Она поддерживает ту же скорость, что и эти модели, и конкурирует с семейством R-CNN по точности. По этим причинам модель RetinaNet находит широкое применение при обнаружении объектов по спутниковым снимкам.

Когда использовать RetinaNet?

RetinaNet – один из лучших методов обнаружения объектов в нескольких задачах. Его можно использовать в качестве замены SSD для многих задач для получения быстрых и точных результатов изображения.

Примеры использования

Алгоритм обнаружения объектов RetinaNet может выполнять широкий спектр приложений. Замечательное применение RetinaNet используется для обнаружения объектов на аэрофотоснимках и спутниковых снимках.

Как работает обнаружение объектов в искусственном интеллекте?

Обнаружение объектов включает в себя несколько этапов, и конкретные методы могут различаться, но общий обзор того, как работает обнаружение объектов с использованием глубокого обучения, можно описать следующим образом:

Сбор и предварительная обработка данных:

Соберите большой набор данных, содержащий изображения с аннотированными объектами, представляющими интерес. Аннотации обычно включают ограничивающие рамки вокруг объектов и соответствующие метки классов.

Предварительная обработка данных, включая изменение размера изображений, нормализацию значений пикселей и другие преобразования, чтобы подготовить их к обучению.

Выберите Архитектуру модели:

Выберите архитектуру глубокого обучения, подходящую для обнаружения объектов. Популярные архитектуры включают региональные CNNS (R-CNN), более быстрые R-CNN, Single Shot MultiBox Detector (SSD) и You Only Look Once (YOLO).

Извлечение признаков:

Используйте предварительно обученную нейронную сеть (часто в большом наборе данных классификации изображений, таком как ImageNet) для извлечения объектов из входных изображений. Этот шаг обычно выполняется с использованием сверточных слоев, которые хороши для захвата иерархических объектов.

Предложение региона (для некоторых архитектур):

В некоторых моделях, таких как R-CNN и Faster R-CNN, сеть предложений регионов (RPN) используется для предложения областей-кандидатов на изображении, которые могут содержать объекты. Затем эти предложения используются для дальнейшего анализа.

Локализация объекта:

Спрогнозируйте ограничивающие рамки, которые плотно ограничивают объекты в пределах предлагаемых областей. Эти ограничивающие рамки представлены координатами (x, y, ширина, высота).

Классификация объектов:

Классифицируйте содержимое внутри каждой ограничивающей рамки, присвоив метку класса. Это включает в себя предсказание категории объекта (например, человека, автомобиля, собаки).

Последующая обработка:

Примените методы постобработки для уточнения ограничивающих рамок и удаления повторяющихся обнаружений. Не максимальное подавление – это распространенный метод, используемый для объединения перекрывающихся ограничивающих рамок и сохранения той, которая имеет наивысший показатель достоверности.

Выходной сигнал:

Конечный результат включает координаты ограничивающих рамок, соответствующие метки классов и показатели достоверности для каждого обнаруженного объекта.

Обучение:

Обучите модель на основе аннотированного набора данных, используя алгоритмы обратного распространения и оптимизации для настройки параметров модели. Процесс обучения сводит к минимуму разницу между прогнозируемыми результатами и аннотациями достоверности.

Вывод:

После обучения модель может использоваться для вывода на новых, невидимых изображениях. Модель обрабатывает входное изображение, предсказывает ограничивающие рамки, метки классов и показатели достоверности для объектов.

Использование метода обнаружения объектов

Обнаружение объектов распространено ежедневно, и степень его значимости в нашем современном мире намного больше, чем многие могут изначально предположить.

В нашей повседневной жизни распознавание объектов уже повсеместно. Например, вы разблокируете свой смартфон с помощью функции распознавания лиц.

Ниже приведены некоторые важные области применения обнаружения объектов-

Наблюдение, безопасность и дорожное движение

Помимо маркировки данных, обнаружение объектов в видеозаписи в режиме реального времени является краеугольным камнем современного видеонаблюдения. Компьютерное зрение стремится постоянно превосходить ожидания и внедрять инновации в области обнаружения краж, подозрительной деятельности людей, нарушений правил дорожного движения и многого другого. Все эти процессы контролируются более эффективно.

Автомобильный

Детектор объектов обязателен для автономного вождения, чтобы определить, следует ли тормозить, ускоряться или поворачивать в следующий момент. Это требует обнаружения объектов, которые распознают автомобили, пешеходов, сигналы светофора, дорожные знаки, велосипеды, мотоциклы и т.д.

Медицина

Обнаружение объектов демонстрирует безукоризненное развитие в медицине, особенно в радиологии. Хотя технология лишь частично заменит потребность в экспертных знаниях радиологов и других специалистов, она значительно сократит время, затрачиваемое на ежедневный анализ многих ультразвуковых снимков, даже рентгеновских снимков, магнитно-резонансной томографии и компьютерной томографии.

Розничная торговля

Интеллектуальное управление запасами без ручной проверки запасов, безналичный расчет при совершении покупок и многое другое доступно розничным торговцам, внедряющим компьютерное зрение для обнаружения объектов.

Подсчет толпы

Это приложение невероятно хорошо работает в густонаселенных районах, таких как торговые центры, аэропорты, городские площади и тематические парки. Как правило, это приложение для обнаружения объектов полезно крупным предприятиям и муниципалитетам для отслеживания дорожного движения, нарушений законов и количества транспортных средств, проезжающих за определенный промежуток времени.

А вы что думаете?