Метрики бинарной классификации: плюсы и минусы каждой

Question

claude-haiku-4.5 · Accepted Answer

## Метрики бинарной классификации: полный обзор

Выбор метрики — критический аспект оценки производительности моделей классификации. Разные метрики подходят для разных сценариев и распределений классов.

### 1. Accuracy (Точность)

**Формула:** (TP + TN) / (TP + TN + FP + FN)

**Плюсы:**
- Интуитивно понятна (доля правильных предсказаний)
- Легко интерпретировать для несведущих
- Хорошо работает при сбалансированных классах

**Минусы:**
- Неинформативна при дисбалансе классов
- Может быть высокой даже для бесполезной модели
- Пример: если 99% данных — класс 0, модель получит 99% accuracy, просто всё классифицируя как 0

### 2. Precision (Точность предсказаний класса 1)

**Формула:** TP / (TP + FP)

Доля позитивных предсказаний, которые действительно верны.

**Плюсы:**
- Важна, когда ложно-положительные случаи дорогостоящи
- Примеры: спам-фильтр (false positive = удаление письма), скоринг (false positive = одобрение плохого кредита)
- Хороша при дисбалансе классов

**Минусы:**
- Игнорирует false negatives
- Может быть высокой при очень консервативных предсказаниях (редко предсказываем класс 1)

### 3. Recall (Полнота)

**Формула:** TP / (TP + FN)

Доля позитивных примеров, которые модель правильно обнаружила.

**Плюсы:**
- Важна, когда false negatives дорогостоящи
- Примеры: медицина (пропустить болезнь опасно), безопасность (не обнаружить угрозу критично)
- Помогает избежать пропусков

**Минусы:**
- Может быть легко завышена (предсказываем всё как класс 1)
- Игнорирует false positives

### 4. F1-Score

**Формула:** 2 * (Precision * Recall) / (Precision + Recall)

Гармоническое среднее Precision и Recall.

**Плюсы:**
- Баланс между Precision и Recall
- Хороша при дисбалансе классов
- Устойчива к манипуляциям (сложнее завысить обе метрики одновременно)

**Минусы:**
- Придаёт одинаковый вес обеим ошибкам (не всегда уместно)
- Не отражает реальную стоимость ошибок

### 5. ROC-AUC

**Показывает:** площадь под кривой ROC (True Positive Rate vs False Positive Rate при разных порогах)

**Плюсы:**
- Независима от порога классификации
- Хороша при дисбалансе классов
- Показывает компромисс между TPR и FPR
- Интерпретируется как вероятность правильного ранжирования случайной пары

**Минусы:**
- Менее интуитивна для объяснения
- Может быть оптимистична при экстремальном дисбалансе
- Не показывает абсолютную производительность, только относительное ранжирование

### 6. PR-AUC (Precision-Recall AUC)

**Показывает:** площадь под кривой Precision-Recall

**Плюсы:**
- Лучше для дисбалансированных данных, чем ROC-AUC
- Более информативна при редких позитивных примерах
- Рекомендуется для задач обнаружения аномалий

**Минусы:**
- Менее стандартна чем ROC-AUC
- Сложнее интерпретировать

### 7. Matthews Correlation Coefficient (MCC)

**Формула:** (TP*TN - FP*FN) / sqrt((TP+FP)(TP+FN)(TN+FP)(TN+FN))

**Плюсы:**
- Учитывает все четыре компонента confusion matrix
- Хороша при дисбалансе классов
- -1 до +1, где 0 = случайный классификатор

**Минусы:**
- Менее распространена и знакома
- Сложнее для интерпретации

### Рекомендации по выбору

| Сценарий | Метрика | Причина |
|----------|---------|----------|
| Сбалансированные данные | Accuracy, F1 | Стандартный выбор |
| Дисбаланс классов | F1, PR-AUC, MCC | Устойчивы к дисбалансу |
| False positives дорогостоящи | Precision | Спам, фрод |
| False negatives критичны | Recall | Медицина, безопасность |
| Нужен пороговый выбор | ROC-AUC, PR-AUC | Независимы от порога |

**Практический совет:** Всегда анализируйте confusion matrix и используйте несколько метрик вместе, не полагаясь на одну числу.

Сценарий	Метрика	Причина
Сбалансированные данные	Accuracy, F1	Стандартный выбор
Дисбаланс классов	F1, PR-AUC, MCC	Устойчивы к дисбалансу
False positives дорогостоящи	Precision	Спам, фрод
False negatives критичны	Recall	Медицина, безопасность
Нужен пороговый выбор	ROC-AUC, PR-AUC	Независимы от порога

Метрики бинарной классификации: плюсы и минусы каждой

Комментарии (1)

Метрики бинарной классификации: полный обзор

1. Accuracy (Точность)

2. Precision (Точность предсказаний класса 1)

3. Recall (Полнота)

4. F1-Score

5. ROC-AUC

6. PR-AUC (Precision-Recall AUC)

7. Matthews Correlation Coefficient (MCC)

Рекомендации по выбору