Проектирование ETL-пайплайна для обработки 10 ТБ данных ежедневно

Question

## Условие

Вам необходимо спроектировать систему, способную обрабатывать 10 терабайт данных ежедневно с минимальной задержкой аналитики.

### Бизнес-требования:
- Данные поступают из 50+ источников (базы данных, API, файлы)
- Аналитика должна быть доступна в течение 2 часов после получения данных
- Необходима поддержка ad-hoc запросов
- Требуется хранение истории за 3 года

### Задание:
1. Опишите общую архитектуру системы (слои, компоненты)
2. Какие технологии вы выберете для каждого слоя и почему?
3. Как обеспечить отказоустойчивость и масштабируемость?
4. Как организовать мониторинг и алертинг?
5. Какие метрики качества данных вы будете отслеживать?
6. Как обеспечить идемпотентность пайплайна?

claude-haiku-4.5 · Accepted Answer

## Решение ### 1. Архитектура системы Рекомендуемая пятислойная архитектура с разделением ответственности: **SOURCES** → **INGESTION** → **PROCESSING** → **WAREHOUSE** → **PRESENTATION** Ключевые компоненты: - Буфер (Kafka) для асинхронной инжекции - Обработчик (Spark/Beam) для трансформации - Хранилище (Snowflake/BigQuery) с горячим/холодным слоем - Оркестратор (Airflow) для управления DAG ### 2. Технологический стек **Ingestion Layer:** - Apache Kafka для буферизации потоков и пакетов - Fivetran для готовых коннекторов к БД/API - Apache NiFi для файлов и нестандартных источников **Processing Layer:** - Apache Spark 3.x для распределённой обработки - dbt для трансформации на SQL (версионирование, тестирование) - Google Dataflow/AWS Glue как альтернатива **Storage Layer:** - Snowflake основное хранилище (columnar, масштабируемость compute/storage независимо) - Delta Lake на S3/GCS для промежуточных данных - Холодное хранилище в S3 Glacier (3+ года истории) **Orchestration:** - Apache Airflow для DAG-based оркестрации - Альтернатива: Prefect/Dagster для лучшей наблюдаемости ### 3. Отказоустойчивость и масштабируемость **Отказоустойчивость:** - Retry политика (exponential backoff, макс 3 попытки) - Circuit breaker паттерн для источников данных - Checkpoint/savepointing в распределённых обработчиках - Мульти-регион и реплика базы данных **Масштабируемость:** - Горизонтальное масштабирование Kafka партиций по источникам - Автомасштабирование Spark executors по объёму данных - Partitioning таблиц по дате и ключам (date/user_id) - Кэширование результатов аналитики в Redis ### 4. Мониторинг и алертинг **Инструменты:** - Prometheus + Grafana для метрик системы - DataDog/New Relic для APM и распределённого трейсинга - Great Expectations для качества данных - PagerDuty для критичных алертов **Метрики SLA:** - Data Freshness: < 2 часов (от приёма до готовности) - Pipeline Success Rate: > 99.5% - Average Query Latency: < 5 сек (p95) - Source Availability: > 99% ### 5. Метрики качества данных - **Полнота**: % NULL значений по ключевым полям - **Точность**: % валидных значений согласно правилам (формат, диапазон) - **Согласованность**: % взаимных ссылок (FK constraints) - **Своевременность**: время между источником и хранилищем - **Уникальность**: % дубликатов по ключевым колонкам ### 6. Идемпотентность **Стратегия:** - Offset management в Kafka (сохранять processed offsets в Delta Lake) - Natural key (идентификатор + временной штамп) для дедупликации - MERGE операции в Delta Lake с ACID гарантиями - Запись контрольных сумм для верификации **Пример кода:** ```python # Spark: Idempotent Merge delta_table.alias('old').merge( new_data.alias('new'), 'old.id = new.id AND old.date = new.date' ).whenMatchedUpdateAll( ).whenNotMatchedInsertAll( ).execute() ``` Это обеспечивает, что повторный запуск даёт идентичный результат.

Проектирование ETL-пайплайна для обработки 10 ТБ данных ежедневно

Условие

Бизнес-требования:

Задание:

Комментарии (1)

Решение

1. Архитектура системы

2. Технологический стек

3. Отказоустойчивость и масштабируемость

4. Мониторинг и алертинг

5. Метрики качества данных

6. Идемпотентность