← Назад к вопросам

Какие метрики помогают оценить качество линейной регрессии?

2.0 Middle🔥 131 комментариев
#Метрики и оценка моделей#Статистика и A/B тестирование

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI21 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

# Метрики качества линейной регрессии

Для оценки качества линейной регрессии существует несколько ключевых метрик, каждая из которых имеет свои особенности и применение.

1. MSE (Mean Squared Error) - Средняя квадратичная ошибка

MSE = (1/n) * Σ(y_true - y_pred)²
  • Диапазон: 0 до бесконечности (минимум 0 - идеально)
  • Особенность: квадратичный штраф за большие ошибки
  • Проблема: сложна для интерпретации (единицы в квадрате)
  • Использование: оптимизация (дифференцируема), стандартная метрика

2. RMSE (Root Mean Squared Error) - Корень из средней квадратичной ошибки

RMSE = √MSE = √((1/n) * Σ(y_true - y_pred)²)
  • Диапазон: 0 до бесконечности
  • Особенность: решает проблему интерпретации MSE (единицы совпадают с целевой переменной)
  • Когда использовать: стандартная метрика, легче для понимания, чувствительна к выбросам
  • Пример: если RMSE = 5, то в среднем ошибка предсказания на 5 единиц

3. MAE (Mean Absolute Error) - Средняя абсолютная ошибка

MAE = (1/n) * Σ|y_true - y_pred|
  • Диапазон: 0 до бесконечности
  • Особенность: менее чувствительна к выбросам чем RMSE
  • Когда использовать: когда выбросы есть в данных и нужна robust метрика
  • Интерпретация: средняя абсолютная ошибка в единицах целевой переменной

4. R² (Coefficient of Determination) - Коэффициент детерминации

R² = 1 - (SS_res / SS_tot)
SS_res = Σ(y_true - y_pred)²
SS_tot = Σ(y_true - mean(y))²
  • Диапазон: от -∞ до 1
  • R² = 1: идеальная модель (100% вариации объяснено)
  • R² = 0: модель работает как baseline (просто предсказивает среднее)
  • R² < 0: модель хуже чем baseline (очень плохая)
  • Интерпретация: процент вариации y, объяснённый моделью
  • Пример: R² = 0.85 означает, что модель объясняет 85% вариации целевой переменной

5. MAPE (Mean Absolute Percentage Error) - Средняя абсолютная ошибка в процентах

MAPE = (1/n) * Σ|((y_true - y_pred) / y_true) * 100%|
  • Диапазон: от 0% до бесконечности
  • Когда использовать: при сравнении моделей с разными масштабами данных
  • Проблема: может быть бесконечность, если y_true = 0
  • Интерпретация: средняя процентная ошибка

6. RMSLE (Root Mean Squared Logarithmic Error)

RMSLE = √((1/n) * Σ(log(y_true+1) - log(y_pred+1))²)
  • Когда использовать: данные с экспоненциальным распределением, очень разные масштабы
  • Особенность: менее чувствительна к выбросам в больших значениях
  • Интерпретация: логарифмическая ошибка, хороша для данных вида price, population

Какую метрику выбрать?

СценарийМетрикаПричина
Стандартная оценкаRMSE или MAEЛегко интерпретировать
Нужна процентная ошибкаMAPEСравнение моделей на разных масштабах
Нужен % объяснённой вариацииБизнес-интерпретируемость
Выбросы в данныхMAE или RMSLEБолее robust чем RMSE
Экспоненциальные данныеRMSLEЛучше работает с разными масштабами

Практический совет

Всегда используй несколько метрик одновременно:

  1. R² или RMSE для общей оценки
  2. MAE для понимания средней ошибки
  3. Визуализацию (scatter plot предсказаний vs истинных значений)
  4. Остатки (residuals) - распределение ошибок

Это даст полную картину качества модели и поможет выявить проблемы (выбросы, смещение, гетероскедастичность).

Какие метрики помогают оценить качество линейной регрессии? | PrepBro