← Назад к вопросам

Для каких задач лучше всего подходят различные метрики регрессии

2.0 Middle🔥 131 комментариев
#Метрики и оценка моделей#Статистика и A/B тестирование

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI28 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Для каких задач лучше всего подходят различные метрики регрессии

Это фундаментальный вопрос, который показывает глубокое понимание выбора метрик. Разные метрики регрессии оптимальны для разных сценариев и требований.

Основные метрики регрессии

1. MSE (Mean Squared Error)

Формула: MSE = (1/n) * Σ(y_true - y_pred)²

from sklearn.metrics import mean_squared_error

y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
mse = mean_squared_error(y_true, y_pred)

Когда использовать:

  • Когда ошибки распределены нормально
  • Когда большие ошибки критичнее маленьких
  • Стандартная метрика для обучения моделей
  • Математически удобна для оптимизации

Пример: Прогноз цены акций — большое отклонение дорогостоящее

2. MAE (Mean Absolute Error)

Формула: MAE = (1/n) * Σ|y_true - y_pred|

from sklearn.metrics import mean_absolute_error

mae = mean_absolute_error(y_true, y_pred)

Когда использовать:

  • Когда есть выбросы в данных
  • Когда нужна простая интерпретация (в единицах целевой переменной)
  • Когда все ошибки одинаково важны
  • Финансовые предсказания

Пример: Прогноз дохода компании — ошибка в 50 000 одинаково плоха везде

3. RMSE (Root Mean Squared Error)

Формула: RMSE = √MSE

from sklearn.metrics import mean_squared_error
import numpy as np

rmse = np.sqrt(mean_squared_error(y_true, y_pred))

Когда использовать:

  • Когда нужна метрика в единицах целевой переменной
  • Когда хочешь штрафовать большие ошибки (но меньше, чем MSE)
  • Стандартная метрика для публикаций и конкурсов

Пример: Прогноз температуры — RMSE = 2°C более интерпретируема, чем MSE = 4°C²

4. MAPE (Mean Absolute Percentage Error)

Формула: MAPE = (100/n) * Σ|y_true - y_pred| / |y_true|

from sklearn.metrics import mean_absolute_percentage_error

mape = mean_absolute_percentage_error(y_true, y_pred)

Когда использовать:

  • Когда значения имеют разные масштабы
  • Когда ошибка зависит от размера значения
  • Когда нужна интерпретируемость в процентах

Пример: Прогноз объёмов продаж разных товаров (от 10 единиц до 1 млн)

5. R² (Coefficient of Determination)

Формула: R² = 1 - (SS_res / SS_tot)

from sklearn.metrics import r2_score

r2 = r2_score(y_true, y_pred)

Когда использовать:

  • Для оценки "доли объяснённой дисперсии"
  • Когда нужно сравнивать модели на одних данных
  • Стандартная метрика в статистике

Диапазон: -∞ до 1.0 (1.0 = идеально)

Пример: R² = 0.85 значит модель объясняет 85% вариативности

Сравнение метрик

import pandas as pd
import numpy as np

# Создаём примеры
y_true = np.array([100, 200, 300, 400, 500])
y_pred_good = np.array([105, 195, 310, 390, 510])      # Хорошие прогнозы
y_pred_bad = np.array([50, 250, 350, 350, 550])       # Одна большая ошибка
y_pred_percent = np.array([110, 220, 290, 420, 490])  # Ошибка в процентах

# Видим: MAE менее чувствительна к выбросам!

Рекомендации по выбору метрики

# Задача: Прогноз цены недвижимости
# Выбор: RMSE или MAE (в зависимости от выбросов)

# Задача: Прогноз спроса для разных товаров
# Выбор: MAPE

# Задача: Научная статья о моделировании
# Выбор: R² или RMSE

# Задача: Обнаружение аномалий с регрессией
# Выбор: MSE (штрафует большие ошибки)

Практические примеры

Пример 1: Прогноз потребления энергии

Дневные значения от 100 кВт до 5000 кВт. Проблема с MSE/RMSE: ошибка на 1000 кВт может быть хорошей (1%) или плохой (10%). Решение: MAPE показывает % ошибки относительно истинного значения.

Пример 2: Прогноз курса валют (может быть выброс)

При выбросах MAE лучше, так как MSE и RMSE очень реагируют на большие отклонения.

Матрица выбора метрики

ЗадачаМетрикаПричина
Цены, финансыMAE или RMSEПростая интерпретация, устойчивость
Объёмы, разные масштабыMAPE% ошибка универсальна
Научные исследованияR² или RMSEСтандарт в литературе
Выбросы в данныхMAEМенее чувствительна
Оптимизация моделиMSEМатематически удобна
АномалииMSEШтрафует большие ошибки
Сравнение моделейНормализованная метрика
Интерпретация для бизнесаMAE или MAPEПонятные единицы

Комбинированный подход

На практике используй несколько метрик для полной картины. Это даёт более полное понимание качества модели и помогает выявить особенности её поведения. Выбор правильной метрики зависит от конкретной задачи и требований бизнеса, а не только от статистики.

Для каких задач лучше всего подходят различные метрики регрессии | PrepBro