График имеет форму буквы «S» — отсюда название «сигмоида».
Ключевые свойства сигмоиды
Свойство 1: Всегда в диапазоне [0; 1]
Независимо от того, какое число z вы подадите на вход, результат всегда будет между 0 и 1 :
\(0 < σ(z) < 1 \ для \ любого \ z\)
Это позволяет интерпретировать результат как вероятность.
Таблица примеров:
| z |
e−z |
1+e−z |
σ(z) |
Интерпретация |
| -6 |
403.4 |
404.4 |
0.002 |
Почти точно класс 0 |
| -3 |
20.09 |
21.09 |
0.047 |
Вероятно класс 0 |
| -1 |
2.72 |
3.72 |
0.269 |
Скорее класс 0 |
| 0 |
1.00 |
2.00 |
0.500 |
Граница |
| 1 |
0.37 |
1.37 |
0.731 |
Скорее класс 1 |
| 3 |
0.05 |
1.05 |
0.953 |
Вероятно класс 1 |
| 6 |
0.002 |
1.002 |
0.998 |
Почти точно класс 1 |
Свойство 2: S-образная форма
График сигмоиды имеет форму буквы «S» — плавно возрастает от 0 до 1.
Логистическая функция моделирует кривую роста вероятности некоего события по мере изменения управляющих параметров (факторов риска).
Свойство 3: Симметрия относительно точки (0, 0.5)
Сигмоида симметрична относительно центра :
\(\sigma(−z)=1−\sigma(z)\)
Пример:
Это значит, что если z=2 даёт вероятность класса 1 равную 0.88, то z=−2 даёт вероятность класса 0 равную 0.88 (или класса 1 равную 0.12).
Свойство 4: Три зоны уверенности
Сигмоиду можно разделить на три зоны :
| Зона |
Значение z |
Вероятность σ(z) |
Интерпретация |
| Левая зона (насыщение) |
z<−3 |
p<0.05 |
Почти точно класс 0 (модель уверена) |
| Средняя зона (чувствительная) |
−3≤z≤3 |
0.05≤p≤0.95 |
Зона неопределённости (модель сомневается) |
| Правая зона (насыщение) |
z>3 |
p>0.95 |
Почти точно класс 1 (модель уверена) |
В средней зоне модель максимально чувствительна к изменениям z, а на краях (в зонах насыщения) чувствительность падает.
Почему именно эта формула?
Сигмоида выбрана не случайно! Она возникает естественным образом из теории вероятностей.
Если предположить, что целевая переменная y распределена по закону Бернулли (да/нет), то метод максимального правдоподобия приводит именно к сигмоидной функции.
Математически:
\(P(y=1∣x)=\sigma(w^⊤x+b)\)
"Вероятность того, что y равно 1, при условии что мы знаем x."
-
w — вектор весов (коэффициентов) модели
-
x — вектор признаков объекта
-
⊤ — символ транспонирования (переворачивает вектор из столбца в строку или наоборот)
-
w⊤x — скалярное произведение двух векторов
Это означает, что сигмоида — это оптимальный способ превратить линейный счёт в вероятность для бинарной классификации.
Почему транспонирование?
Формально, чтобы умножить вектор-строку на вектор-столбец и получить число (скаляр), нужно транспонировать один из них. Это математическое соглашение из линейной алгебры
Производная сигмоиды
Сигмоида обладает очень красивым свойством: её производная выражается через саму функцию :
\(\sigma′(z)=\sigma(z)⋅(1−\sigma(z))\)
Почему это важно?
-
Упрощает вычисление градиентов при обучении модели
-
Делает градиентный спуск эффективным
-
Позволяет быстро обновлять параметры w и b
-
Производная выражается через уже вычисленное значение самой функции, что экономит время
График производной:
Производная максимальна при z=0 (там, где σ(z)=0.5), и стремится к нулю на краях