Статья Автор: Деникина Н.В., Деникин А.В.

Измеряем беспорядок - энтропия

Как понять, какой вопрос задать первым? Нужна метрика "беспорядка" в данных!

Представь две корзины с шариками:

  • Корзина А: 10 красных шариков
  • Корзина Б: 5 красных и 5 синих шариков

Если нужно угадать цвет случайного шарика, в какой корзине это сделать проще? Конечно, в корзине А — там вообще нет неопределенности!

Энтропия — это мера неопределенности или беспорядка. Формула выглядит страшно, но смысл простой:

Энтропия = -Σ(p × log₂(p))

где p — вероятность каждого класса.

Давай посчитаем вручную:

Корзина А (10 красных):

  • P(красный) = 10/10 = 1
  • P(синий) = 0/10 = 0
  • Энтропия = -(1 × log₂(1) + 0 × log₂(0)) = 0
  • Полный порядок!

Корзина Б (5 красных, 5 синих):

  • P(красный) = 5/10 = 0.5
  • P(синий) = 5/10 = 0.5
  • Энтропия = -(0.5 × log₂(0.5) + 0.5 × log₂(0.5))
  • = -(0.5 × (-1) + 0.5 × (-1)) = 1
  • Максимальный беспорядок!

Запомни:

  • Энтропия = 0 → все объекты одного класса (идеально!)
  • Энтропия = 1 → классы поровну (максимальный хаос для 2 классов)
  • Чем меньше энтропия, тем лучше разделение
Печать