← Назад к вопросам

Какой стек использовал на проектах?

1.3 Junior🔥 161 комментариев
#Опыт и soft skills

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI26 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Какой стек использовал на проектах

Мой основной стек для Data Engineering:

1. Языки программирования

  • Python (primary) — ETL, обработка данных, ML preprocessing
  • SQL (daily) — оптимизация запросов, аналитика
  • Bash/Shell — automation, DevOps
  • Java — Apache Spark (когда нужна производительность)

2. Data Processing

  • Apache Spark — distributed processing (100GB+)
  • Pandas — локальная обработка, аналитика
  • Polars — быстрая альтернатива Pandas
  • dbt — ELT, SQL трансформации

3. Streaming

  • Apache Kafka — event streaming
  • Apache Flink — real-time processing
  • Spark Structured Streaming — streaming на Spark

4. Databases

OLTP:

  • PostgreSQL — основная
  • MySQL — legacy системы

OLAP:

  • ClickHouse — аналитика (>1B rows)
  • BigQuery — cloud analytics (GCP)
  • Snowflake — modern cloud warehouse
  • Redshift — Amazon DW

NoSQL:

  • MongoDB — unstructured data
  • Redis — caching, queues

5. Orchestration

  • Apache Airflow — DAG scheduling
  • dbt Cloud — cloud transformations
  • Prefect — modern alternative
  • Kubernetes CronJobs — containerized tasks

6. Cloud Platforms

  • AWS: EC2, S3, RDS, Redshift, Glue
  • GCP: Compute Engine, BigQuery, Dataflow
  • Azure: Data Factory, Synapse

7. Infrastructure as Code

  • Terraform — provision cloud resources
  • Docker — containerization
  • Kubernetes — orchestration
  • GitHub Actions — CI/CD

8. Monitoring & Logging

  • Prometheus — metrics
  • Grafana — dashboards
  • ELK Stack — logging
  • Sentry — error tracking
  • DataDog — APM

9. Development Tools

  • Git — version control
  • VS Code — IDE
  • Jupyter — notebooks
  • pytest — unit testing
  • DBeaver — SQL IDE

10. Типичный проект (End-to-End)

Data Sources (APIs, DBs, Files)
         |
    ↓ Python/Pandas
  
Extract (Airflow DAG)
         |
    ↓ dbt + SQL
    
Transform (PostgreSQL)
         |
    ↓ Spark/Python
    
Load (S3 + BigQuery)
         |
    ↓ Python
    
Analysis & Dashboards (Grafana)
         |
    ↓ Monitoring
    
Alerting (PagerDuty)

11. Специализированные стеки по задачам

Real-time Analytics:

  • Kafka + Spark Streaming + Clickhouse + Grafana

Data Warehouse:

  • Airflow + dbt + Snowflake + BI tools

ML Pipeline:

  • Airflow + Pandas + Scikit-learn + Feature Store

Data Lake:

  • S3/HDFS + Spark + Iceberg + Trino

12. Версии и стандарты

Python 3.9+
PostgreSQL 12+
Spark 3.x
Airflow 2.x
dbt 1.x
Kubernetes 1.24+

13. Текущие предпочтения (2024)

  • ЭТЛ: dbt + Python (не ORM)
  • Streaming: Kafka + Flink (более надёжно чем Spark)
  • Analytics: BigQuery или Clickhouse
  • Oркестрация: Airflow (стабилен) или Prefect (современнее)
  • Cloud: Комбо AWS + GCP

14. Опыт с новыми технологиями

  • Apache Iceberg — modern data lake format
  • Databricks — lakehouse platform
  • Great Expectations — data quality
  • Pandera — DataFrame validation
  • Airbyte — data integration

Тип проектов: от стартапов (1 инженер, всё на Python + Postgres) до корпораций (100+ человек, многоcloud setup).

Какой стек использовал на проектах? | PrepBro