Статья Автор: Деникина Н.В., Деникин А.В.

Логистическая регрессия

Логистическая регрессия

Линейная регрессия нужна, когда надо предсказать число, например цену или рост. А что если нужно предсказать относится ли объект к какой-либо категории или нет. Например, полученное письмо является спамом или нет. В этом случае нам поможет логистическая регрессия.
Логистическая регрессия предсказывает вероятность события «да/нет» (например, «спам» или «не спам»), а потом превращает её в метку класса. Это удобно там, где ответ — категория, а не произвольное число.

Категориальные значения — это выбор из фиксированного списка, как дни недели или «да/нет». У таких ответов не бывает половинок: произошло в понедельник или во вторник, но не «между». Поэтому искать «линию наилучшего соответствия» как в линейной регрессии тут не имеет смысла.

Почему тут нужна вероятность

Вместо числа модель оценивает, насколько объект похож на нужный класс, и выдаёт вероятность от 0 до 1. Если вероятность выше выбранного порога (часто 0.5), относим объект к классу 1, иначе к классу 0. Порог можно менять под задачу, чтобы лучше балансировать ошибки.


Как модель принимает решение

Модель ищет простую границу (прямую или плоскость), которая лучше всего разделяет объекты двух классов. Чем дальше точка от границы на «своей» стороне, тем выше вероятность её класса. Если прямую границу найти трудно, помогают новые признаки или другие модели.


Применение

  • Почта: письмо — спам или нет.​

  • Медицина: есть заболевание или нет.​

  • Бизнес: одобрить кредит или отказать.

Печать