Что такое accuracy?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
# Что такое Accuracy?
Определение
Accuracy (Точность) — это самая простая метрика для оценки классификационных моделей:
Accuracy = (TP + TN) / (TP + FP + FN + TN)
Где:
- TP (True Positive) — мы правильно предсказали класс 1
- TN (True Negative) — мы правильно предсказали класс 0
- FP (False Positive) — мы неправильно предсказали 1 (на самом деле 0)
- FN (False Negative) — мы неправильно предсказали 0 (на самом деле 1)
Простыми словами
Accuracy = доля правильных предсказаний из всех предсказаний
Пример: если модель правильно предсказала 85 случаев из 100, то Accuracy = 85%
Пример
Предположим:
- У нас 10 примеров: [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
- Модель предсказала: [0, 0, 0, 1, 0, 1, 1, 1, 0, 1]
Правильные:
- TP (истинные единицы): 3 (индексы 5, 6, 7)
- TN (истинные нули): 4 (индексы 0, 1, 2, 4)
Ошибочные:
- FP (ложные единицы): 1 (индекс 3)
- FN (ложные нули): 1 (индекс 8)
Accuracy = (3 + 4) / 10 = 70%
ПРОБЛЕМА: Accuracy опасна при дисбалансе классов
Представьте, что вы строите модель для detection мошенничества в платежах:
- 990 обычных платежей
- 10 мошеннических платежей
А ваша "умная" модель просто всегда говорит "это обычный платёж":
y_true = [0]*990 + [1]*10 # реальность
y_pred = [0]*1000 # модель предсказывает только 0
Accuracy = 1000 / 1000 = 99% ✓ (выглядит отлично!)
Но это КАТАСТРОФА! Мы не поймали ни одного мошенника. Accuracy = 99%, но модель совершенно бесполезна.
Почему Accuracy может быть обманчива
-
Дисбаланс классов — если одного класса 95% и 5%, модель может просто всегда угадывать большой класс
-
Разные стоимости ошибок:
- Медицинский диагноз: пропустить болезнь (FN) опаснее чем ложный диагноз (FP)
- Email spam: ложные срабатывания (FP) могут потерять важное письмо
- Accuracy не различает эти ошибки
-
Скрывает проблемы — модель может быть идеальна на одном классе и ужасна на другом
Когда Accuracy хороша
✓ Классы хорошо сбалансированы (40%-60%)
✓ Оба типа ошибок одинаково дорогие
✓ Простые задачи (классификация кошек и собак)
Когда Accuracy плохая
✗ Дисбаланс классов (1% vs 99%)
✗ Разные стоимости ошибок (FN критичнее чем FP)
✗ Чувствительные задачи (fraud detection, medical diagnosis)
Альтернативные метрики
| Метрика | Что измеряет | Когда использовать |
|---|---|---|
| Precision | Из всех положительных предсказаний, сколько правильно? | Когда FP дорогой (spam detection) |
| Recall | Из всех реальных положительных, сколько мы нашли? | Когда FN дорогой (disease detection) |
| F1-score | Гармонический mean Precision и Recall | Баланс между обоими типами ошибок |
| ROC-AUC | Площадь под кривой TPR vs FPR | Общая оценка, устойчива к дисбалансу |
| Balanced Accuracy | Средний Recall для каждого класса | Дисбалансированные классы |
Практический совет
НИКОГДА не полагайся на одну метрику!
Усегда смотри на:
- Confusion Matrix — видна полная картина
- Precision & Recall — понимаешь, какие ошибки делает модель
- F1-score или ROC-AUC — общая оценка качества
- Бизнес-метрика — что реально важно?
Вывод
Accuracy — простая и интуитивная метрика, но она может быть обманчива, особенно при дисбалансе классов. Для правильной оценки модели нужно всегда смотреть на несколько метрик вместе и выбирать их в зависимости от того, какие ошибки дороже для вашей задачи.