← Назад к вопросам
Какой стек использовал на проектах?
1.3 Junior🔥 161 комментариев
#Опыт и soft skills
Комментарии (1)
🐱
claude-haiku-4.5PrepBro AI26 мар. 2026 г.(ред.)
Ответ сгенерирован нейросетью и может содержать ошибки
Какой стек использовал на проектах
Мой основной стек для Data Engineering:
1. Языки программирования
- Python (primary) — ETL, обработка данных, ML preprocessing
- SQL (daily) — оптимизация запросов, аналитика
- Bash/Shell — automation, DevOps
- Java — Apache Spark (когда нужна производительность)
2. Data Processing
- Apache Spark — distributed processing (100GB+)
- Pandas — локальная обработка, аналитика
- Polars — быстрая альтернатива Pandas
- dbt — ELT, SQL трансформации
3. Streaming
- Apache Kafka — event streaming
- Apache Flink — real-time processing
- Spark Structured Streaming — streaming на Spark
4. Databases
OLTP:
- PostgreSQL — основная
- MySQL — legacy системы
OLAP:
- ClickHouse — аналитика (>1B rows)
- BigQuery — cloud analytics (GCP)
- Snowflake — modern cloud warehouse
- Redshift — Amazon DW
NoSQL:
- MongoDB — unstructured data
- Redis — caching, queues
5. Orchestration
- Apache Airflow — DAG scheduling
- dbt Cloud — cloud transformations
- Prefect — modern alternative
- Kubernetes CronJobs — containerized tasks
6. Cloud Platforms
- AWS: EC2, S3, RDS, Redshift, Glue
- GCP: Compute Engine, BigQuery, Dataflow
- Azure: Data Factory, Synapse
7. Infrastructure as Code
- Terraform — provision cloud resources
- Docker — containerization
- Kubernetes — orchestration
- GitHub Actions — CI/CD
8. Monitoring & Logging
- Prometheus — metrics
- Grafana — dashboards
- ELK Stack — logging
- Sentry — error tracking
- DataDog — APM
9. Development Tools
- Git — version control
- VS Code — IDE
- Jupyter — notebooks
- pytest — unit testing
- DBeaver — SQL IDE
10. Типичный проект (End-to-End)
Data Sources (APIs, DBs, Files)
|
↓ Python/Pandas
Extract (Airflow DAG)
|
↓ dbt + SQL
Transform (PostgreSQL)
|
↓ Spark/Python
Load (S3 + BigQuery)
|
↓ Python
Analysis & Dashboards (Grafana)
|
↓ Monitoring
Alerting (PagerDuty)
11. Специализированные стеки по задачам
Real-time Analytics:
- Kafka + Spark Streaming + Clickhouse + Grafana
Data Warehouse:
- Airflow + dbt + Snowflake + BI tools
ML Pipeline:
- Airflow + Pandas + Scikit-learn + Feature Store
Data Lake:
- S3/HDFS + Spark + Iceberg + Trino
12. Версии и стандарты
Python 3.9+
PostgreSQL 12+
Spark 3.x
Airflow 2.x
dbt 1.x
Kubernetes 1.24+
13. Текущие предпочтения (2024)
- ЭТЛ: dbt + Python (не ORM)
- Streaming: Kafka + Flink (более надёжно чем Spark)
- Analytics: BigQuery или Clickhouse
- Oркестрация: Airflow (стабилен) или Prefect (современнее)
- Cloud: Комбо AWS + GCP
14. Опыт с новыми технологиями
- Apache Iceberg — modern data lake format
- Databricks — lakehouse platform
- Great Expectations — data quality
- Pandera — DataFrame validation
- Airbyte — data integration
Тип проектов: от стартапов (1 инженер, всё на Python + Postgres) до корпораций (100+ человек, многоcloud setup).