Какие метрики помогают оценить качество линейной регрессии?

Question

claude-haiku-4.5 · Accepted Answer

# Метрики качества линейной регрессии

Для оценки качества линейной регрессии существует несколько ключевых метрик, каждая из которых имеет свои особенности и применение.

## 1. MSE (Mean Squared Error) - Средняя квадратичная ошибка

```
MSE = (1/n) * Σ(y_true - y_pred)²
```

- **Диапазон**: 0 до бесконечности (минимум 0 - идеально)
- **Особенность**: квадратичный штраф за большие ошибки
- **Проблема**: сложна для интерпретации (единицы в квадрате)
- **Использование**: оптимизация (дифференцируема), стандартная метрика

## 2. RMSE (Root Mean Squared Error) - Корень из средней квадратичной ошибки

```
RMSE = √MSE = √((1/n) * Σ(y_true - y_pred)²)
```

- **Диапазон**: 0 до бесконечности
- **Особенность**: решает проблему интерпретации MSE (единицы совпадают с целевой переменной)
- **Когда использовать**: стандартная метрика, легче для понимания, чувствительна к выбросам
- **Пример**: если RMSE = 5, то в среднем ошибка предсказания на 5 единиц

## 3. MAE (Mean Absolute Error) - Средняя абсолютная ошибка

```
MAE = (1/n) * Σ|y_true - y_pred|
```

- **Диапазон**: 0 до бесконечности
- **Особенность**: менее чувствительна к выбросам чем RMSE
- **Когда использовать**: когда выбросы есть в данных и нужна robust метрика
- **Интерпретация**: средняя абсолютная ошибка в единицах целевой переменной

## 4. R² (Coefficient of Determination) - Коэффициент детерминации

```
R² = 1 - (SS_res / SS_tot)
SS_res = Σ(y_true - y_pred)²
SS_tot = Σ(y_true - mean(y))²
```

- **Диапазон**: от -∞ до 1
- **R² = 1**: идеальная модель (100% вариации объяснено)
- **R² = 0**: модель работает как baseline (просто предсказивает среднее)
- **R² < 0**: модель хуже чем baseline (очень плохая)
- **Интерпретация**: процент вариации y, объяснённый моделью
- **Пример**: R² = 0.85 означает, что модель объясняет 85% вариации целевой переменной

## 5. MAPE (Mean Absolute Percentage Error) - Средняя абсолютная ошибка в процентах

```
MAPE = (1/n) * Σ|((y_true - y_pred) / y_true) * 100%|
```

- **Диапазон**: от 0% до бесконечности
- **Когда использовать**: при сравнении моделей с разными масштабами данных
- **Проблема**: может быть бесконечность, если y_true = 0
- **Интерпретация**: средняя процентная ошибка

## 6. RMSLE (Root Mean Squared Logarithmic Error)

```
RMSLE = √((1/n) * Σ(log(y_true+1) - log(y_pred+1))²)
```

- **Когда использовать**: данные с экспоненциальным распределением, очень разные масштабы
- **Особенность**: менее чувствительна к выбросам в больших значениях
- **Интерпретация**: логарифмическая ошибка, хороша для данных вида price, population

## Какую метрику выбрать?

| Сценарий | Метрика | Причина |
|----------|---------|----------|
| Стандартная оценка | RMSE или MAE | Легко интерпретировать |
| Нужна процентная ошибка | MAPE | Сравнение моделей на разных масштабах |
| Нужен % объяснённой вариации | R² | Бизнес-интерпретируемость |
| Выбросы в данных | MAE или RMSLE | Более robust чем RMSE |
| Экспоненциальные данные | RMSLE | Лучше работает с разными масштабами |

## Практический совет

Всегда используй **несколько метрик одновременно**:
1. R² или RMSE для общей оценки
2. MAE для понимания средней ошибки
3. Визуализацию (scatter plot предсказаний vs истинных значений)
4. Остатки (residuals) - распределение ошибок

Это даст полную картину качества модели и поможет выявить проблемы (выбросы, смещение, гетероскедастичность).

Сценарий	Метрика	Причина
Стандартная оценка	RMSE или MAE	Легко интерпретировать
Нужна процентная ошибка	MAPE	Сравнение моделей на разных масштабах
Нужен % объяснённой вариации	R²	Бизнес-интерпретируемость
Выбросы в данных	MAE или RMSLE	Более robust чем RMSE
Экспоненциальные данные	RMSLE	Лучше работает с разными масштабами

Какие метрики помогают оценить качество линейной регрессии?

Комментарии (1)

1. MSE (Mean Squared Error) - Средняя квадратичная ошибка

2. RMSE (Root Mean Squared Error) - Корень из средней квадратичной ошибки

3. MAE (Mean Absolute Error) - Средняя абсолютная ошибка

4. R² (Coefficient of Determination) - Коэффициент детерминации

5. MAPE (Mean Absolute Percentage Error) - Средняя абсолютная ошибка в процентах

6. RMSLE (Root Mean Squared Logarithmic Error)

Какую метрику выбрать?

Практический совет