В чем разница между Failover и Recovery?

Question

deepseek-v3.2 · Accepted Answer

## Разница между Failover и Recovery в контексте отказоустойчивости

**Failover (Аварийный переключение)** и **Recovery (Восстановление)** — это два взаимосвязанных, но принципиально разных этапа в стратегии обеспечения **высокой доступности (High Availability, HA)** и **аварийного восстановления (Disaster Recovery, DR)**. Если говорить просто, то **Failover** — это *автоматическое* переключение на резервный ресурс при сбое, а **Recovery** — это *более широкий* процесс возврата системы в полностью рабочее состояние, часто включающий в себя ручные операции и восстановление данных.

### Ключевые характеристики Failover

**Failover** — это процесс автоматического и (как правило) мгновенного переключения рабочих нагрузок с отказавшего основного компонента системы (сервера, сети, центра обработки данных) на предварительно настроенный резервный (standby) компонент. Его главная цель — **минимизировать время простоя (downtime)** и обеспечить непрерывность обслуживания для пользователей.

*   **Автоматизм:** Часто инициируется системой мониторинга без вмешательства человека.
*   **Скорость:** Происходит очень быстро (секунды или минуты).
*   **Прозрачность:** Для конечного пользователя переключение может быть незаметным или выглядеть как краткая задержка.
*   **Сфера действия:** Обычно применяется к отдельным критическим компонентам: отказ сервера приложений (App Server), сетевого маршрутизатора, диска в RAID-массиве.
*   **Состояние данных:** Резервный компонент часто находится в "горячем" (hot) или "теплом" (warm) состоянии с актуальными или почти актуальными данными (репликация).

**Пример архитектуры с Failover:**
```yaml
# Конфигурация простого кластера веб-серверов с балансировщиком нагрузки
primary_server:
  host: app-01.prod
  role: active
  health_check: /api/health

secondary_server:
  host: app-02.prod
  role: standby  # Готов принять нагрузку при failover
  health_check: /api/health

load_balancer:
  algorithm: round-robin
  failover_threshold: 3 failed checks  # Условие для инициирования failover
  action: route_traffic_to(secondary_server)
```

### Ключевые характеристики Recovery

**Recovery** — это более общий и комплексный процесс восстановления работоспособности системы *после* инцидента. Это может быть как восстановление основного компонента после **failover**, так и ликвидация последствий крупномасштабного сбоя, когда автоматическое переключение невозможно. Его главная цель — **вернуть систему в запланированное, стабильное состояние** (к исходной или новой конфигурации), часто с восстановлением данных.

*   **Этапность:** Является последующим шагом после failover или самостоятельным процессом при серьезных авариях.
*   **Длительность:** Может занимать от минут до часов и даже дней (в зависимости от масштаба и стратегии резервного копирования).
*   **Ручное вмешательство:** Часто требует действий инженеров: анализ причин, восстановление из бэкапа, перенастройка.
*   **Сфера действия:** Восстановление целого ЦОД, базы данных после потери данных, приложения после сбоя ПО.
*   **Метрика:** Измеряется **Целевым временем восстановления (Recovery Time Objective, RTO)** и **Целевой точкой восстановления (Recovery Point Objective, RPO)**.

**Пример процесса Recovery для базы данных:**
```sql
-- После сбоя основного сервера БД и failover на standby,
-- необходимо восстановить основной сервер и синхронизировать данные.

-- 1. Восстановление из последней резервной копии на основном сервере
RESTORE DATABASE MyDB FROM DISK = '/backups/MyDB_full.bak' WITH NORECOVERY;

-- 2. Применение транзакционных логов (для минимизации потери данных - RPO)
RESTORE LOG MyDB FROM DISK = '/backups/MyDB_log.trn' WITH RECOVERY;

-- 3. Перенастройка репликации или кластера
ALTER AVAILABILITY GROUP MyAG FAILOVER; -- Возврат роли primary
```

### Сравнительная таблица

### Практический пример в контексте тестирования (QA)

Представим интернет-магазин:
1.  **Сбой и Failover:** Отказывает основной сервер базы данных. Кластер автоматически выполняет **failover**, делая standby-реплику новой primary. Пользователи могут видеть ошибку на 1-2 секунды, но покупки продолжаются.
2.  **Recovery:** Команда инженеров:
    *   Расследует причину сбоя на старом основном сервере.
    *   Восстанавливает его работоспособность (перезагрузка, замена диска).
    *   Перенастраивает его как новую standby-реплику и синхронизирует данные с текущей primary.
    *  *В более тяжелом сценарии*: если данные были повреждены, происходит **recovery из резервной копии (backup)** на отдельном сервере с последующим вводом в кластер.

**Вывод для QA Engineer:** Понимание этой разницы критично для проектирования тестов отказоустойчивости. Мы должны тестировать:
*   **Сценарии Failover:** Насколько быстро и корректно система переключается при имитации отказа (например, через `chaos engineering`).
*   **Сценарии Recovery:** Как проходит процесс восстановления основного компонента и его реинтеграции в систему, соответствуют ли реальные показатели RTO/RPO заявленным в требованиях. Тестирование процедур восстановления из резервных копий — также ключевая часть обязанностей QA в области надежности (Reliability Engineering).

Критерий	Failover (Аварийное переключение)	Recovery (Восстановление)
Основная цель	Обеспечить непрерывность работы (минимизировать downtime)	Вернуть систему в штатное рабочее состояние
Тип процесса	Преимущественно автоматический, реактивный	Часто ручной или полуавтоматический, плановый
Временные рамки	Секунды-минуты (быстро)	Минуты-часы-дни (относительно долго)
Триггер	Отказ компонента, срабатывание мониторинга	После failover или масштабная катастрофа
Фокус	Переключение трафика/нагрузки	Восстановление данных, инфраструктуры, конфигурации
Ключевая метрика	Доступность (uptime)	RTO (целевое время восстановления) и RPO (целевая точка восстановления)

В чем разница между Failover и Recovery?

Комментарии (2)

Разница между Failover и Recovery в контексте отказоустойчивости

Ключевые характеристики Failover

Ключевые характеристики Recovery

Сравнительная таблица

Практический пример в контексте тестирования (QA)