От чего зависит объем выборки для теста

Question

claude-haiku-4.5 · Accepted Answer

## От чего зависит объём выборки для теста

Это дополнение к предыдущему ответу, фокус на практических факторах, влияющих на размер выборки.

### Основные статистические факторы (повтор)

**1. Уровень значимости (α)**
- Стандарт: 5% (95% confidence)
- Для критичных: 1% (99% confidence)
- Увеличение α → меньше участников нужно

**2. Статистическая мощность (1-β)**
- Стандарт: 80% мощность
- Для важного: 90%
- Увеличение power → больше участников нужно

**3. Величина эффекта (δ)**
- Минимально интересующее улучшение
- **Это самый важный фактор** — сильнее всего влияет на n

**4. Вариативность метрики (σ²)**
- Разброс значений в контрольной группе
- Больше шума → больше выборка нужна

### Практические бизнес-факторы

### 5. Ежедневный/недельный трафик продукта

**Что это?** Реальная пропускная способность — сколько пользователей попадает в тест в день/неделю.

**Примеры:**
- SaaS с 100,000 DAU → можешь набрать 50,000 на группу за 1 неделю
- Мобильное приложение с 10,000 DAU → нужно 5-10 недель для того же
- E-commerce с 500 заказов/день → если нужно n=10,000, тест идёт 20 дней

**Как использовать:**
```
Дни теста = n × 2 / Daily_Traffic
```

Если n=50,000, Daily_Traffic=10,000:
Дни теста = 50,000 × 2 / 10,000 = 10 дней

### 6. Базовая конверсия/метрика (baseline)

**Что это?** Текущее значение метрики до теста.

**Как влияет:**
- Низкая базовая конверсия (1%) → нужна больша выборка (больше шума)
- Высокая базовая конверсия (30%) → выборка меньше (меньше шума, ближе к нормальному распределению)

**Примеры:**
- Sign-up conversion 50% → n=800 для δ=10%
- Sign-up conversion 5% → n=6,500 для δ=10% relative
- Sign-up conversion 0.5% → n=65,000 для δ=10% relative

### 7. Сезонность и волатильность

**Что это?** Изменение поведения пользователей в зависимости от времени.

**Примеры волатильности:**
- Черная пятница: конверсия в 10x выше обычного
- Выходной день: трафик падает на 70%
- Начало/конец месяца: разные паттерны
- Новая когорта: поведение отличается от опытных

**Как учитывать:**
- Избегай тестирования в периоды высокой волатильности
- Увеличь n на 20-30% если тестируешь в нестабильный период
- Используй CUPED для контроля за предыдущих данными

### 8. Количество групп в тесте

**Что это?** Не всегда просто A vs B. Могут быть варианты.

**Примеры:**
- A/B test (2 группы): control vs treatment
- Multi-variant test (3+ группы): control vs variant1 vs variant2
- Factorial design (6-8 групп): комбинации параметров

**Как влияет:**
- 2 группы: n на группу
- 3 группы: n×1.5 на группу (примерно)
- 4 группы: n×1.8-2 на группу

**Правило:** каждая дополнительная группа требует дополнительных участников для поддержания мощности теста.

### 9. Порядок метрики (primary vs secondary)

**Что это?** На какую метрику оптимизируем?

**Примеры:**
- Primary: конверсия в подписку
- Secondary: retention day-1
- Tertiary: revenue

**Как влияет:**
- Primary метрика: стандартный расчёт n
- Secondary метрика: нужна примерно 1.5-2x больше для Bonferroni correction
- Множественные тесты: correction за количество метрик

### 10. Допустимая длительность теста

**Что это?** Сколько дней/недель ты готов ждать результата?

**Бизнес-ограничения:**
- Нужен результат за 1 неделю → ограничение на n
- Можешь ждать 4 недели → больше гибкости
- Если n > доступной выборки → невозможно провести тест

**Решение:** либо увеличить δ (ищешь больший эффект), либо ждать дольше.

### 11. Экономия на данных: техники снижения n

**1. CUPED (Controlled-Experiment Using Prediction As Covariable)**

Используешь исторические данные пользователя для коррекции.
- Снижает σ на 20-50%
- Требует 2+ недель истории

**2. Stratified sampling**

Разделяешь пользователей на стратумы (новые, ветераны, платящие) и тестируешь отдельно.
- Снижает σ внутри группы
- Реалистичнее результаты

**3. Ratio-based allocation**

Неравномерное разделение: 70% в control, 30% в treatment
- Экономишь на treatment если он дороже тестировать
- Больше данных в control для baseline

### 12. Готовность инфраструктуры к тесту

**Что это?** Технические возможности системы.

**Факторы:**
- Латентность системы: если медленно, нужно больше данных
- Качество трекинга: если ошибки в трекинге, нужно больше выборка (более чистые данные)
- Способность рандомизировать: если рандомизация некорректна, тест невалиден

### Практический чеклист перед запуском теста

- [ ] Определена primary метрика
- [ ] Рассчитано базовое значение метрики
- [ ] Согласовано δ (минимально значим. улучшение)
- [ ] Рассчитан требуемый n
- [ ] Оценена дневная выборка (Daily_Traffic)
- [ ] Рассчитана длительность теста
- [ ] Проверена инфраструктура (трекинг, рандомизация)
- [ ] Учтена сезонность и волатильность периода
- [ ] Применены техники оптимизации (CUPED и т.д.)
- [ ] Зарезервирована буферная выборка (на потери данных)

### Формула комплексная

```
Дни теста = (Z_α/2 + Z_β)² × σ² × 2 / δ² / Daily_Traffic
```

Эта формула объединяет все факторы: статистические (α, β, σ) и практические (δ, Daily_Traffic).

От чего зависит объем выборки для теста

Комментарии (1)

От чего зависит объём выборки для теста

Основные статистические факторы (повтор)

Практические бизнес-факторы

5. Ежедневный/недельный трафик продукта

6. Базовая конверсия/метрика (baseline)

7. Сезонность и волатильность

8. Количество групп в тесте

9. Порядок метрики (primary vs secondary)

10. Допустимая длительность теста

11. Экономия на данных: техники снижения n

12. Готовность инфраструктуры к тесту

Практический чеклист перед запуском теста

Формула комплексная

Похожие вопросы