Что такое accuracy?

Question

Что такое accuracy?

claude-haiku-4.5 · Accepted Answer

# Что такое Accuracy?

## Определение

**Accuracy (Точность)** — это самая простая метрика для оценки классификационных моделей:

```
Accuracy = (TP + TN) / (TP + FP + FN + TN)
```

Где:
- **TP (True Positive)** — мы правильно предсказали класс 1
- **TN (True Negative)** — мы правильно предсказали класс 0
- **FP (False Positive)** — мы неправильно предсказали 1 (на самом деле 0)
- **FN (False Negative)** — мы неправильно предсказали 0 (на самом деле 1)

## Простыми словами

**Accuracy** = доля правильных предсказаний из всех предсказаний

Пример: если модель правильно предсказала 85 случаев из 100, то Accuracy = 85%

## Пример

```python
Предположим:
- У нас 10 примеров: [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
- Модель предсказала: [0, 0, 0, 1, 0, 1, 1, 1, 0, 1]

Правильные:
- TP (истинные единицы): 3 (индексы 5, 6, 7)
- TN (истинные нули): 4 (индексы 0, 1, 2, 4)

Ошибочные:
- FP (ложные единицы): 1 (индекс 3)
- FN (ложные нули): 1 (индекс 8)

Accuracy = (3 + 4) / 10 = 70%
```

## ПРОБЛЕМА: Accuracy опасна при дисбалансе классов

Представьте, что вы строите модель для **detection мошенничества в платежах**:
- 990 обычных платежей
- 10 мошеннических платежей

А ваша "умная" модель просто всегда говорит "это обычный платёж":
```python
y_true = [0]*990 + [1]*10  # реальность
y_pred = [0]*1000          # модель предсказывает только 0

Accuracy = 1000 / 1000 = 99% ✓ (выглядит отлично!)
```

**Но это КАТАСТРОФА!** Мы не поймали ни одного мошенника. Accuracy = 99%, но модель совершенно бесполезна.

## Почему Accuracy может быть обманчива

1. **Дисбаланс классов** — если одного класса 95% и 5%, модель может просто всегда угадывать большой класс

2. **Разные стоимости ошибок**:
   - Медицинский диагноз: пропустить болезнь (FN) опаснее чем ложный диагноз (FP)
   - Email spam: ложные срабатывания (FP) могут потерять важное письмо
   - Accuracy не различает эти ошибки

3. **Скрывает проблемы** — модель может быть идеальна на одном классе и ужасна на другом

## Когда Accuracy хороша

✓ Классы хорошо сбалансированы (40%-60%)  
✓ Оба типа ошибок одинаково дорогие  
✓ Простые задачи (классификация кошек и собак)

## Когда Accuracy плохая

✗ Дисбаланс классов (1% vs 99%)  
✗ Разные стоимости ошибок (FN критичнее чем FP)  
✗ Чувствительные задачи (fraud detection, medical diagnosis)

## Альтернативные метрики

| Метрика | Что измеряет | Когда использовать |
|---------|-------------|-------------------|
| **Precision** | Из всех положительных предсказаний, сколько правильно? | Когда FP дорогой (spam detection) |
| **Recall** | Из всех реальных положительных, сколько мы нашли? | Когда FN дорогой (disease detection) |
| **F1-score** | Гармонический mean Precision и Recall | Баланс между обоими типами ошибок |
| **ROC-AUC** | Площадь под кривой TPR vs FPR | Общая оценка, устойчива к дисбалансу |
| **Balanced Accuracy** | Средний Recall для каждого класса | Дисбалансированные классы |

## Практический совет

**НИКОГДА** не полагайся на одну метрику!

Усегда смотри на:
1. **Confusion Matrix** — видна полная картина
2. **Precision & Recall** — понимаешь, какие ошибки делает модель
3. **F1-score или ROC-AUC** — общая оценка качества
4. **Бизнес-метрика** — что реально важно?

## Вывод

Accuracy — простая и интуитивная метрика, но она может быть обманчива, особенно при дисбалансе классов. Для правильной оценки модели нужно всегда смотреть на несколько метрик вместе и выбирать их в зависимости от того, какие ошибки дороже для вашей задачи.

Метрика	Что измеряет	Когда использовать
Precision	Из всех положительных предсказаний, сколько правильно?	Когда FP дорогой (spam detection)
Recall	Из всех реальных положительных, сколько мы нашли?	Когда FN дорогой (disease detection)
F1-score	Гармонический mean Precision и Recall	Баланс между обоими типами ошибок
ROC-AUC	Площадь под кривой TPR vs FPR	Общая оценка, устойчива к дисбалансу
Balanced Accuracy	Средний Recall для каждого класса	Дисбалансированные классы

Что такое accuracy?

Комментарии (1)

Определение

Простыми словами

Пример

ПРОБЛЕМА: Accuracy опасна при дисбалансе классов

Почему Accuracy может быть обманчива

Когда Accuracy хороша

Когда Accuracy плохая

Альтернативные метрики

Практический совет

Вывод

Похожие вопросы