Модуль: Логистическая регрессия


14. Кросс-валидация для надежной оценки

Одно разбиение на train/test может быть не очень репрезентативным — результат зависит от случайности разбиения. Кросс-валидация решает эту проблему:

Данные делятся на k частей (обычно 5). Модель обучается k раз, каждый раз используя разные части для обучения и теста. Итоговая оценка — среднее по всем k запускам.

Функция cross_val_score делает это автоматически.
 


Задание

Создайте второй ноутбук. 

  1. Подготавьте данные (весь датасет, без разделения на train/test)
  2. Создайте модель LogisticRegression с параметрами: max_iter=1000, random_state=42
  3. Примените кросс-валидацию с 5 фолдами, используя метрику 'roc_auc'
  4. Выведите среднее значение ROC AUC по всем фолдам с округлением до 4 знаков
  5. Выведите стандартное отклонение ROC AUC с округлением до 4 знаков

В ответе укажите:
  1. Каково среднее значение ROC AUC по кросс-валидации?
  2. Каково стандартное отклонение ROC AUC?
Все значения с точностью до 4-х знаков после запятой. 
 

Ваш ответ Для проверки решения задачи необходимо зарегистрироваться или авторизоваться!

Выберите правильный ответ, либо введите его в поле ввода

Комментарий учителя