← Назад к вопросам
Какие метрики помогают оценить качество линейной регрессии?
2.0 Middle🔥 131 комментариев
#Метрики и оценка моделей#Статистика и A/B тестирование
Комментарии (1)
🐱
claude-haiku-4.5PrepBro AI21 мар. 2026 г.(ред.)
Ответ сгенерирован нейросетью и может содержать ошибки
# Метрики качества линейной регрессии
Для оценки качества линейной регрессии существует несколько ключевых метрик, каждая из которых имеет свои особенности и применение.
1. MSE (Mean Squared Error) - Средняя квадратичная ошибка
MSE = (1/n) * Σ(y_true - y_pred)²
- Диапазон: 0 до бесконечности (минимум 0 - идеально)
- Особенность: квадратичный штраф за большие ошибки
- Проблема: сложна для интерпретации (единицы в квадрате)
- Использование: оптимизация (дифференцируема), стандартная метрика
2. RMSE (Root Mean Squared Error) - Корень из средней квадратичной ошибки
RMSE = √MSE = √((1/n) * Σ(y_true - y_pred)²)
- Диапазон: 0 до бесконечности
- Особенность: решает проблему интерпретации MSE (единицы совпадают с целевой переменной)
- Когда использовать: стандартная метрика, легче для понимания, чувствительна к выбросам
- Пример: если RMSE = 5, то в среднем ошибка предсказания на 5 единиц
3. MAE (Mean Absolute Error) - Средняя абсолютная ошибка
MAE = (1/n) * Σ|y_true - y_pred|
- Диапазон: 0 до бесконечности
- Особенность: менее чувствительна к выбросам чем RMSE
- Когда использовать: когда выбросы есть в данных и нужна robust метрика
- Интерпретация: средняя абсолютная ошибка в единицах целевой переменной
4. R² (Coefficient of Determination) - Коэффициент детерминации
R² = 1 - (SS_res / SS_tot)
SS_res = Σ(y_true - y_pred)²
SS_tot = Σ(y_true - mean(y))²
- Диапазон: от -∞ до 1
- R² = 1: идеальная модель (100% вариации объяснено)
- R² = 0: модель работает как baseline (просто предсказивает среднее)
- R² < 0: модель хуже чем baseline (очень плохая)
- Интерпретация: процент вариации y, объяснённый моделью
- Пример: R² = 0.85 означает, что модель объясняет 85% вариации целевой переменной
5. MAPE (Mean Absolute Percentage Error) - Средняя абсолютная ошибка в процентах
MAPE = (1/n) * Σ|((y_true - y_pred) / y_true) * 100%|
- Диапазон: от 0% до бесконечности
- Когда использовать: при сравнении моделей с разными масштабами данных
- Проблема: может быть бесконечность, если y_true = 0
- Интерпретация: средняя процентная ошибка
6. RMSLE (Root Mean Squared Logarithmic Error)
RMSLE = √((1/n) * Σ(log(y_true+1) - log(y_pred+1))²)
- Когда использовать: данные с экспоненциальным распределением, очень разные масштабы
- Особенность: менее чувствительна к выбросам в больших значениях
- Интерпретация: логарифмическая ошибка, хороша для данных вида price, population
Какую метрику выбрать?
| Сценарий | Метрика | Причина |
|---|---|---|
| Стандартная оценка | RMSE или MAE | Легко интерпретировать |
| Нужна процентная ошибка | MAPE | Сравнение моделей на разных масштабах |
| Нужен % объяснённой вариации | R² | Бизнес-интерпретируемость |
| Выбросы в данных | MAE или RMSLE | Более robust чем RMSE |
| Экспоненциальные данные | RMSLE | Лучше работает с разными масштабами |
Практический совет
Всегда используй несколько метрик одновременно:
- R² или RMSE для общей оценки
- MAE для понимания средней ошибки
- Визуализацию (scatter plot предсказаний vs истинных значений)
- Остатки (residuals) - распределение ошибок
Это даст полную картину качества модели и поможет выявить проблемы (выбросы, смещение, гетероскедастичность).