Что такое Critical Alert в мониторинге?

Question

deepseek-v3.2 · Accepted Answer

## Что такое Critical Alert в мониторинге?

**Critical Alert** (Критическое оповещение) — это наивысший уровень уведомления в системах мониторинга инфраструктуры и приложений, сигнализирующий о возникновении инцидента, который требует **немедленного вмешательства** команды. Это не просто предупреждение, а «красная кнопка», указывающая на активное нарушение критически важного **Service Level Objective (SLO)** или **Service Level Agreement (SLA)**, которое напрямую влияет на бизнес-процессы, доступность сервиса, целостность данных или безопасность.

### Ключевые характеристики Critical Alert

*   **Высший приоритет:** Такие алерты имеют наивысший приоритет (P0/P1) и должны обрабатываться в первую очередь, часто с эскалацией на ответственных инженеров, включая внерабочее время.
*   **Немедленное воздействие:** Проблема уже происходит **сейчас** и ощущается пользователями или другими системами (например, полная недоступность сайта, отказ базы данных, исчерпание ресурсов).
*   **Требует ручного вмешательства:** Автоматические восстановления (self-healing) либо отсутствуют, либо уже не справляются. Необходимы действия человека.
*   **Четкие критерии срабатывания:** Определяются строгими пороговыми значениями (например, `availability < 99.9%`, `error_rate > 5%`, `latency_p99 > 5s`), а не предупредительными трендами.

### Примеры условий для Critical Alert

*   **Доступность:** Веб-приложение возвращает HTTP 5xx ошибки для >10% запросов в течение 2 минут.
*   **Бизнес-метрики:** Количество успешных платежей упало до нуля.
*   **Инфраструктура:** Доступное дисковое пространство на критическом сервере БД менее 5%.
*   **База данных:** Основная реплика MySQL недоступна.
*   **Сеть:** Потеряна связь между дата-центрами.

### Отличия от других типов алертов (Warning)

Важно отличать **Critical** от менее серьезных **Warning** (Предупреждений):

### Практическая реализация и лучшие практики

В современных стеках мониторинга, таких как **Prometheus** + **Alertmanager**, критический алерт определяется в правилах. Вот пример правила для Prometheus:

```yaml
groups:
  - name: critical.alerts
    rules:
      - alert: HighRequestLatency
        expr: histogram_quantile(0.99, rate(http_request_duration_seconds_bucket[5m])) > 2
        for: 1m # Условие должно соблюдаться минуту для избежания "шума"
        labels:
          severity: critical # Важная метка для маршрутизации
          team: backend
        annotations:
          summary: "P99 latency is critically high"
          description: "P99 latency for {{ $labels.job }} is {{ $value }}s (threshold: 2s)"
          runbook_url: "https://wiki.company.com/runbooks/high-latency"
```

**Лучшие практики работы с Critical Alert:**

1.  **Избегание "шума":** Используйте параметр `for` (длительность условия) и агрегацию, чтобы фильтровать кратковременные всплески.
2.  **Четкая маршрутизация:** Настройте **Alertmanager** или аналоги для отправки критических алертов в правильный канал (например, PagerDuty, Opsgenie, телефонный звонок), а warning — в Slack/Email.
3.  **Runbook:** Каждому критическому алерту должна соответствовать **ручная процедура (runbook)** с пошаговыми инструкциями по диагностике и устранению.
4.  **Пост-мортемы:** После каждого срабатывания критического алерта обязательно проводите разбор (blameless post-mortem) для анализа первопричин и предотвращения повторения.
5.  **Регулярный пересмотр:** Правила алертинга должны регулярно ревизироваться и обновляться, чтобы оставаться актуальными и не создавать устаревшие или ложные срабатывания (alert fatigue).

**Итог:** Critical Alert — это центральный элемент культуры ответственного DevOps и SRE. Его правильная настройка и обработка напрямую влияют на **среднее время восстановления (MTTR)** и общую надежность сервиса. Цель — не просто получать уведомления, а иметь эффективный процесс для их быстрого разрешения.

Критерий	Critical Alert	Warning Alert
Приоритет	P0/P1, немедленный ответ	P2/P3, ответ в рабочее время
Воздействие	Нарушение SLO/SLA, пользователи затронуты	Риск нарушения SLO, деградация, пользователи не затронуты
Пример	Сервер не отвечает на ping	Загрузка CPU >80% в течение 15 мин
Автоматизация	Требует ручного вмешательства	Часто обрабатывается автоскейлингом или скриптами

Что такое Critical Alert в мониторинге?

Комментарии (1)

Что такое Critical Alert в мониторинге?

Ключевые характеристики Critical Alert

Примеры условий для Critical Alert

Отличия от других типов алертов (Warning)

Практическая реализация и лучшие практики