Как можно выбирать окна агрегации в стриминге?

Question

claude-haiku-4.5 · Accepted Answer

## Как можно выбирать окна агрегации в стриминге?

**Окна агрегации (aggregation windows)** в потоковой обработке данных — это логические промежутки времени, в которых выполняются вычисления над потоком событий. Правильный выбор окна критичен для корректности анализа и производительности.

### 1. Tumbling Windows (фиксированные, непересекающиеся окна)

Окна, которые не пересекаются и следуют одно за другим:

```python
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, window, sum as spark_sum, count

spark = SparkSession.builder.appName("TumblingWindow").getOrCreate()

df_stream = spark.readStream.format("kafka").load()

# Окно размером 5 минут
df_aggregated = df_stream \
    .withWatermark("event_time", "10 minutes") \
    .groupBy(
        window(col("event_time"), "5 minutes"),
        col("user_id")
    ) \
    .agg(
        count("*").alias("event_count"),
        spark_sum("transaction_amount").alias("total_amount")
    ) \
    .orderBy("window")

df_aggregated.writeStream.format("console").start().awaitTermination()
```

**Когда использовать**: метрики подходят для регулярных отчётов (каждые 5 минут, час)

### 2. Sliding Windows (скользящие, пересекающиеся окна)

Окна, которые пересекаются с определённым шагом:

```python
from pyspark.sql.functions import window

# Окно размером 15 минут, сдвиг на 5 минут
df_sliding = df_stream \
    .withWatermark("event_time", "20 minutes") \
    .groupBy(
        window(col("event_time"), windowDuration="15 minutes", slideDuration="5 minutes"),
        col("user_id")
    ) \
    .agg(
        count("*").alias("event_count"),
        spark_sum("value").alias("total")
    )

df_sliding.writeStream.format("console").start().awaitTermination()
```

**Когда использовать**: скользящие средние, детектирование аномалий в реальном времени

### 3. Session Windows (сессионные окна)

Окна, которые определяются по активности пользователя (gap-based):

```python
from pyspark.sql.functions import session_window

# Сессия завершается, если нет событий 10 минут
df_sessions = df_stream \
    .withWatermark("event_time", "15 minutes") \
    .groupBy(
        session_window(col("event_time"), "10 minutes"),
        col("user_id")
    ) \
    .agg(
        count("*").alias("events_per_session"),
        max(col("event_time")).alias("session_end")
    )

df_sessions.writeStream.format("console").start().awaitTermination()
```

**Когда использовать**: анализ пользовательских сессий, поведение в приложении

### 4. Примеры выбора окна в зависимости от случая

#### Метрика: Количество активных пользователей
```sql
SELECT 
    TUMBLE_START(event_time, INTERVAL '5' MINUTE) as window_start,
    COUNT(DISTINCT user_id) as active_users
FROM events
GROUP BY TUMBLE(event_time, INTERVAL '5' MINUTE);
```

#### Метрика: Средний response time (скользящее окно)
```sql
SELECT 
    HOP_START(event_time, INTERVAL '1' MINUTE, INTERVAL '5' MINUTE) as window_start,
    AVG(response_time) as avg_response_time
FROM requests
GROUP BY HOP(event_time, INTERVAL '1' MINUTE, INTERVAL '5' MINUTE);
```

#### Метрика: Сессионные события
```sql
SELECT 
    SESSION_START(event_time, INTERVAL '30' MINUTE) as session_start,
    user_id,
    COUNT(*) as event_count,
    SUM(transaction_amount) as session_revenue
FROM user_events
GROUP BY SESSION(event_time, INTERVAL '30' MINUTE), user_id;
```

### 5. Критерии выбора окна

| Параметр | Рекомендация | Пример |
|----------|------------|----------|
| **Latency** | Меньше окно → меньше задержка | 1-5 минут для real-time |
| **Throughput** | Больше окно → выше пропускная способность | 1 час для батч-отчётов |
| **Accuracy** | Нужно учитывать опаздывающие события | watermark на 10-15% от окна |
| **Business Logic** | Смысл метрики | Сессии = 5-30 мин по бизнесу |

### 6. Обработка опаздывающих событий (Watermarks)

```python
from pyspark.sql.functions import col, window

df_windowed = df_stream \
    .withWatermark("event_time", "10 minutes") \
    .groupBy(
        window(col("event_time"), "5 minutes"),
        col("metric_type")
    ) \
    .agg(
        count("*").alias("count")
    ) \
    .writeStream \
    .outputMode("update")  # или "complete", "append"
    .start()
```

**Output modes**:
- `append`: только новые данные → меньше нагрузка
- `update`: обновлённые окна → точнее, больше нагрузка
- `complete`: все данные → дорого, не масштабируется

### 7. Практический пример: выбор окна для разных метрик

```python
# Метрика 1: Real-time alert на anomaly
df_alert = df_stream \
    .withWatermark("timestamp", "5 seconds") \
    .groupBy(
        window(col("timestamp"), "30 seconds"),  # Частое, маленькое окно
        col("service")
    ) \
    .agg(avg("latency").alias("avg_latency")) \
    .filter(col("avg_latency") > 1000)

# Метрика 2: Dashboard с историей
df_dashboard = df_stream \
    .withWatermark("timestamp", "2 minutes") \
    .groupBy(
        window(col("timestamp"), "1 minute"),  # 1 минута для более гладкого графика
        col("region")
    ) \
    .agg(
        count("*").alias("requests"),
        avg("revenue").alias("avg_revenue")
    )

# Метрика 3: Батч-отчёт
df_report = df_stream \
    .withWatermark("timestamp", "1 hour") \
    .groupBy(
        window(col("timestamp"), "1 day"),  # Большое окно, низкая частота
        col("country")
    ) \
    .agg(
        count("*").alias("daily_events"),
        max(col("revenue")).alias("max_transaction")
    )
```

### Вывод

Выбор окна зависит от:
1. **Требуемой latency** — чем меньше нужна задержка, тем меньше окно
2. **Nature данных** — сессии требуют session windows
3. **Бизнес-требований** — отчёты каждый час vs. real-time alerts
4. **Мощности системы** — меньше окно = больше вычислений
5. **Точности** — watermarks компенсируют опаздывающие события

Параметр	Рекомендация	Пример
Latency	Меньше окно → меньше задержка	1-5 минут для real-time
Throughput	Больше окно → выше пропускная способность	1 час для батч-отчётов
Accuracy	Нужно учитывать опаздывающие события	watermark на 10-15% от окна
Business Logic	Смысл метрики	Сессии = 5-30 мин по бизнесу

Как можно выбирать окна агрегации в стриминге?

Комментарии (1)

Как можно выбирать окна агрегации в стриминге?

1. Tumbling Windows (фиксированные, непересекающиеся окна)

2. Sliding Windows (скользящие, пересекающиеся окна)

3. Session Windows (сессионные окна)

4. Примеры выбора окна в зависимости от случая

Метрика: Количество активных пользователей

Метрика: Средний response time (скользящее окно)

Метрика: Сессионные события

5. Критерии выбора окна

6. Обработка опаздывающих событий (Watermarks)

7. Практический пример: выбор окна для разных метрик

Вывод