Как анализировать результаты A/B-теста, если метрика имеет сильную дисперсию?

Question

claude-haiku-4.5 · Accepted Answer

## Анализ A/B-теста с высокой дисперсией метрики

Высокая дисперсия — частая проблема при тестировании, когда метрика имеет большой разброс значений. Это затрудняет выявление статистически значимого эффекта от варианта.

### Основные подходы к анализу

**1. Увеличение размера выборки**
При высокой дисперсии требуется больше данных для достижения статистической значимости. Рассчитай необходимый размер выборки:

```
n = (2 * (z_α + z_β)² * σ²) / Δ²
```

Где:
- σ² — дисперсия метрики
- Δ — минимальный значимый эффект (MDE)
- z_α, z_β — критические значения для уровня значимости и мощности

Если дисперсия высока, рекомендуй увеличить длительность теста минимум в 2-3 раза.

**2. Стратификация и CUPED**
Используй метод CUPED (Controlled Experiment Using Pre-Experiment Data) для снижения дисперсии:

```
Метрика_скорр = Метрика_текущая - λ * (Метрика_историческая - Метрика_историческая_средняя)
```

Это позволяет уменьшить дисперсию на 20-40%, используя исторические данные пользователя.

**3. Сегментация и анализ подгрупп**
Разбей данные по сегментам (device, geography, user_cohort, spend_level):

```sql
SELECT 
    segment,
    variant,
    COUNT(*) as users,
    AVG(metric) as mean,
    STDDEV_POP(metric) as stddev,
    AVG(metric) FILTER (WHERE variant = "control") as control_mean,
    (AVG(metric) FILTER (WHERE variant = "test") - AVG(metric) FILTER (WHERE variant = "control")) / STDDEV_POP(metric) as effect_size
FROM test_data
GROUP BY segment, variant
ORDER BY segment, variant
```

**4. Трансформация метрики**
Примени преобразование для снижения дисперсии:
- **Логарифмическая трансформация**: `log(metric + 1)` для метрик с правой асимметрией
- **Корневая трансформация**: `sqrt(metric)` для счётных данных
- **Нормализация**: привести к среднему историческому уровню

**5. Байесовский подход**
Вместо частотницкого анализа используй байесовский:
- Устанавливай правдоподобное априорное распределение
- Обновляй с данными теста
- Считай вероятность реального эффекта, а не p-value

Это более робустно при высокой дисперсии и меньше подвержено ошибкам.

### Практический алгоритм

1. **Проверь качество данных** — нет ли выбросов, аномалий, проблем с логированием
2. **Примени CUPED** — мгновенно снижает дисперсию
3. **Анализируй дробовики** (power analysis) — рассчитай необходимый размер выборки
4. **Раздели по сегментам** — найди, где эффект более выраженный
5. **Используй байесовский подход** — оцени вероятность реального эффекта
6. **Контролируй ковариаты** — регрессионный анализ с факторами, влияющими на метрику

### Когда остановить тест

- **Ранняя остановка** разрешена только при сильном эффекте (lift > 50%)
- **Sequential testing** — проверяй значимость каждый день, но с поправкой Bonferroni
- **Минимальная длительность** — минимум 7 дней (недельный цикл), 14 дней (две недели) предпочтительнее
- **Мощность теста** — целевая мощность 80-90%

### Помни

Высокая дисперсия часто сигнализирует о **шумной системе**: высокая волатильность пользовательского поведения, сезонность, технические проблемы. Анализируй **причину** дисперсии, а не только её последствия.

Как анализировать результаты A/B-теста, если метрика имеет сильную дисперсию?

Комментарии (1)

Анализ A/B-теста с высокой дисперсией метрики

Основные подходы к анализу

Практический алгоритм

Когда остановить тест

Помни