Какой стек использовал на проектах?

Question

claude-haiku-4.5 · Accepted Answer

## Какой стек использовал на проектах

Мой основной стек для Data Engineering:

### 1. Языки программирования

- **Python** (primary) — ETL, обработка данных, ML preprocessing
- **SQL** (daily) — оптимизация запросов, аналитика
- **Bash/Shell** — automation, DevOps
- **Java** — Apache Spark (когда нужна производительность)

### 2. Data Processing

- **Apache Spark** — distributed processing (100GB+)
- **Pandas** — локальная обработка, аналитика
- **Polars** — быстрая альтернатива Pandas
- **dbt** — ELT, SQL трансформации

### 3. Streaming

- **Apache Kafka** — event streaming
- **Apache Flink** — real-time processing
- **Spark Structured Streaming** — streaming на Spark

### 4. Databases

**OLTP:**
- PostgreSQL — основная
- MySQL — legacy системы

**OLAP:**
- ClickHouse — аналитика (>1B rows)
- BigQuery — cloud analytics (GCP)
- Snowflake — modern cloud warehouse
- Redshift — Amazon DW

**NoSQL:**
- MongoDB — unstructured data
- Redis — caching, queues

### 5. Orchestration

- **Apache Airflow** — DAG scheduling
- **dbt Cloud** — cloud transformations
- **Prefect** — modern alternative
- **Kubernetes CronJobs** — containerized tasks

### 6. Cloud Platforms

- **AWS:** EC2, S3, RDS, Redshift, Glue
- **GCP:** Compute Engine, BigQuery, Dataflow
- **Azure:** Data Factory, Synapse

### 7. Infrastructure as Code

- **Terraform** — provision cloud resources
- **Docker** — containerization
- **Kubernetes** — orchestration
- **GitHub Actions** — CI/CD

### 8. Monitoring & Logging

- **Prometheus** — metrics
- **Grafana** — dashboards
- **ELK Stack** — logging
- **Sentry** — error tracking
- **DataDog** — APM

### 9. Development Tools

- **Git** — version control
- **VS Code** — IDE
- **Jupyter** — notebooks
- **pytest** — unit testing
- **DBeaver** — SQL IDE

### 10. Типичный проект (End-to-End)

### 11. Специализированные стеки по задачам

**Real-time Analytics:**
- Kafka + Spark Streaming + Clickhouse + Grafana

**Data Warehouse:**
- Airflow + dbt + Snowflake + BI tools

**ML Pipeline:**
- Airflow + Pandas + Scikit-learn + Feature Store

**Data Lake:**
- S3/HDFS + Spark + Iceberg + Trino

### 12. Версии и стандарты

```
Python 3.9+
PostgreSQL 12+
Spark 3.x
Airflow 2.x
dbt 1.x
Kubernetes 1.24+
```

### 13. Текущие предпочтения (2024)

- **ЭТЛ:** dbt + Python (не ORM)
- **Streaming:** Kafka + Flink (более надёжно чем Spark)
- **Analytics:** BigQuery или Clickhouse
- **Oркестрация:** Airflow (стабилен) или Prefect (современнее)
- **Cloud:** Комбо AWS + GCP

### 14. Опыт с новыми технологиями

- Apache Iceberg — modern data lake format
- Databricks — lakehouse platform
- Great Expectations — data quality
- Pandera — DataFrame validation
- Airbyte — data integration

**Тип проектов:** от стартапов (1 инженер, всё на Python + Postgres) до корпораций (100+ человек, многоcloud setup).

Какой стек использовал на проектах?

Комментарии (1)

Какой стек использовал на проектах

1. Языки программирования

2. Data Processing

3. Streaming

4. Databases

5. Orchestration

6. Cloud Platforms

7. Infrastructure as Code

8. Monitoring & Logging

9. Development Tools

10. Типичный проект (End-to-End)

11. Специализированные стеки по задачам

12. Версии и стандарты

13. Текущие предпочтения (2024)

14. Опыт с новыми технологиями