Регрессия и Классификация в машинном обучении для начинающих
аши машины становятся все более интеллектуальными и способны выполнять независимые задачи, и этим они обязаны быстро развивающимся областям искусственного интеллекта и машинного обучения. Однако обе области невероятно сложны и требуют времени и усилий для лучшего понимания.
В этой статье рассматривается сравнение регрессии с Классификацией в машинном обучении, включая определения, типы, различия и варианты использования.
Ведущий лидер в области информационных технологий, IBM определяет машинное обучение как “… отрасль искусственного интеллекта (ИИ) и информатики, которая фокусируется на использовании данных и алгоритмов для имитации того, как люди учатся, постепенно повышая его точность”.
Алгоритмы регрессии и классификации известны как алгоритмы обучения под наблюдением и используются для прогнозирования в машинном обучении и работы с помеченными наборами данных. Однако их разный подход к задачам машинного обучения является точкой расхождения.
Теперь давайте более подробно рассмотрим соотношение регрессии и классификации.
Регрессия находит корреляции между зависимыми и независимыми переменными. Таким образом, алгоритмы регрессии помогают прогнозировать непрерывные переменные, такие как цены на жилье, рыночные тенденции, погодные условия, цены на нефть и газ (критическая задача в наши дни!) и т.д.
Задача алгоритма регрессии – найти функцию сопоставления, чтобы мы могли сопоставить входную переменную ”x” с непрерывной выходной переменной “y”.
С другой стороны, Классификация – это алгоритм, который находит функции, помогающие разделить набор данных на классы на основе различных параметров. При использовании алгоритма классификации компьютерная программа обучается на основе обучающего набора данных и классифицирует данные по различным категориям в зависимости от того, что она узнала.
Алгоритмы классификации находят функцию сопоставления для сопоставления входных данных “x” с дискретными выходными данными “y”. Алгоритмы оценивают дискретные значения (другими словами, двоичные значения, такие как 0 и 1, да и нет, истина или ложь) на основе определенного набора независимых переменных. Другими словами, алгоритмы классификации предсказывают вероятность наступления события путем подгонки данных к логит-функции.
Алгоритмы классификации используются для таких вещей, как классификация электронной почты и спама, прогнозирование готовности клиентов банка выплачивать свои кредиты и идентификация раковых опухолевых клеток.
Вот типы алгоритмов регрессии, которые обычно встречаются в области машинного обучения:
А вот типы алгоритмов классификации, обычно используемых в машинном обучении:
Это изображение, любезно предоставленное Javatpoint, иллюстрирует сравнение алгоритмов классификации и регрессии.
Эта таблица показывает различия между регрессом и Алгоритмы классификации.
Алгоритмы регрессии | Алгоритмы классификации |
Выходная переменная должна иметь либо непрерывный характер, либо реальное значение. | Выходная переменная должна быть дискретным значением. |
Задачей алгоритма регрессии является сопоставление входного значения (x) с непрерывной выходной переменной (y). | Задача алгоритма классификации – сопоставить входное значение x с дискретной выходной переменной y. |
Они используются с непрерывными данными. | Они используются с дискретными данными. |
В нем делается попытка найти наиболее подходящую линию, которая более точно предсказывает результат. | Классификация пытается найти границу принятия решения, которая разделяет набор данных на разные классы. |
Регрессионные алгоритмы решают регрессионные задачи, такие как прогнозы цен на жилье и погоды. | Алгоритмы классификации решают такие задачи классификации, как идентификация нежелательных электронных писем, обнаружение раковых клеток и распознавание речи. |
Далее мы можем разделить алгоритмы регрессии на линейную и нелинейную регрессию. | Далее мы можем разделить алгоритмы классификации на двоичные классификаторы и многоклассовые классификаторы. |
Теперь, когда мы четко обозначили различия между алгоритмами классификации и регрессии, пришло время посмотреть, как они соотносятся с деревьями решений. Но прежде чем мы это сделаем, нам нужно задать важный вопрос.
Мы можем классифицировать алгоритмы машинного обучения на два типа: контролируемые и неконтролируемые. Деревья принятия решений – это контролируемый алгоритм машинного обучения. Например, деревья принятия решений – это контролируемый алгоритм машинного обучения.
Алгоритмы дерева решений – это операторы if-else, используемые для прогнозирования результата на основе доступных данных.
Вот пример дерева решений, любезно предоставленный. Мы можем использовать это дерево решений, чтобы предсказать сегодняшнюю погоду и посмотреть, стоит ли устраивать пикник.
Теперь, когда у нас есть четкое определение базового дерева решений, мы готовы углубиться в классификацию и деревья регрессии.
Деревья классификации и регрессии, известные под общим названием CART, описывают алгоритмы дерева решений, используемые в задачах обучения классификации и регрессии. Лео Брейман, Джером Фридман, Ричард Олшен и Чарльз Стоун представили методологию классификации и дерева регрессии в 1984 году.
Дерево классификации – это алгоритм либо с фиксированной, либо с категориальной целевой переменной. Затем мы можем использовать алгоритм для определения наиболее вероятного “класса”, к которому, вероятно, попадет целевая переменная. Эти алгоритмы используются для ответов на вопросы или решения таких проблем, как “Кто с наибольшей вероятностью подпишется на эту акцию?” или “Кто пройдет или не пройдет этот курс?”
Оба этих вопроса представляют собой простые бинарные классификации. Категориальная зависимая переменная принимает только одно из двух возможных взаимоисключающих значений. Однако могут быть случаи, когда вам нужен прогноз, учитывающий несколько переменных, например “На какую из этих четырех рекламных акций люди, вероятно, подпишутся?” В этом случае категориальная зависимая переменная имеет несколько значений.
Вот пример дерева классификации, которое использовал бы ипотечный кредитор, любезно предоставленный Datasciencecentral.
Дерево регрессии описывает алгоритм, который принимает упорядоченные значения с непрерывными значениями и предсказывает значение. Например, вы можете захотеть предсказать цену продажи кондоминиума, непрерывную зависимую переменную.
Цена продажи будет зависеть от постоянных факторов, таких как площадь помещения, и категориальных факторов, таких как стиль кондоминиума, местоположение объекта недвижимости и подобных факторов.
Вот пример дерева регрессии, любезно предоставленный Rpub. В этом дереве рассчитываются зарплаты бейсболистов.
Что касается фактических различий, деревья классификации используются для решения задач, связанных с результатами классификации, а деревья регрессии работают с задачами типа прогнозирования. Но давайте подробнее рассмотрим различия.
Деревья классификации разделяют набор данных на основе однородности, такой как пара переменных. Например, мы могли бы использовать две переменные, такие как возраст и пол. Если данные обучения показали, что 85 процентам мужчин понравился определенный фильм, данные в этот момент разделяются, и пол становится верхним узлом в дереве. Такое разделение делает информацию на 85% чистой.
Деревья регрессии соответствуют целевой переменной с использованием всех независимых переменных. Затем данные по каждой независимой переменной разделяются в нескольких точках. Ошибка между прогнозируемыми и фактическими значениями возводится в квадрат в каждой точке для получения суммы квадратов ошибок, или SSE. Этот SSE сравнивается по всем переменным, и точка или переменная с наименьшим SSE становится точкой разделения, и процесс продолжается рекурсивно.
Как Классификационные, так и регрессионные деревья принятия решений генерируют точные прогнозы с использованием условий if-else . Их преимущества включают:
Ни одна система не идеальна. Классификация и регрессионные деревья принятия решений сопряжены со своими проблемами и ограничениями.
Мы используем деревья классификации, когда набор данных должен быть разделен на классы, принадлежащие переменной ответа. В большинстве случаев этими классами являются “Да” или “Нет”. Таким образом, существует всего два класса, и они взаимоисключают друг друга. Конечно, иногда классов может быть больше двух, но в таких случаях мы просто используем вариант алгоритма дерева классификации.
Однако мы используем деревья регрессии, когда у нас есть непрерывные переменные отклика. Например, если переменной отклика является что-то вроде значения объекта или сегодняшней температуры, мы используем дерево регрессии.
Легко определить, какая модель какая. Короче говоря, регрессионная модель дерева решений используется для прогнозирования непрерывных значений, в то время как модель дерева решений классификации имеет дело с бинарной ситуацией “или-или”.
Что такое поисковые системы? Поисковые системы – это сложные программные комплексы, предназначенные для поиска информации…
Интернет – это невероятное пространство возможностей, но одновременно и место, где за вашей онлайн-активностью может…
В современном цифровом мире защита конфиденциальности стала первостепенной задачей. Каждый день мы оставляем следы своей…
Что это такое? Анонимность в интернете – это состояние, при котором ваша личность и действия…
Фишинг – это одна из самых распространенных киберугроз, которая ежегодно обходится пользователям интернета в миллионы…
Что такое защита данных в облаке? Защита данных в облаке – это комплекс мер, направленных…