От чего зависит объем выборки для теста
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
От чего зависит объём выборки для теста
Это дополнение к предыдущему ответу, фокус на практических факторах, влияющих на размер выборки.
Основные статистические факторы (повтор)
1. Уровень значимости (α)
- Стандарт: 5% (95% confidence)
- Для критичных: 1% (99% confidence)
- Увеличение α → меньше участников нужно
2. Статистическая мощность (1-β)
- Стандарт: 80% мощность
- Для важного: 90%
- Увеличение power → больше участников нужно
3. Величина эффекта (δ)
- Минимально интересующее улучшение
- Это самый важный фактор — сильнее всего влияет на n
4. Вариативность метрики (σ²)
- Разброс значений в контрольной группе
- Больше шума → больше выборка нужна
Практические бизнес-факторы
5. Ежедневный/недельный трафик продукта
Что это? Реальная пропускная способность — сколько пользователей попадает в тест в день/неделю.
Примеры:
- SaaS с 100,000 DAU → можешь набрать 50,000 на группу за 1 неделю
- Мобильное приложение с 10,000 DAU → нужно 5-10 недель для того же
- E-commerce с 500 заказов/день → если нужно n=10,000, тест идёт 20 дней
Как использовать:
Дни теста = n × 2 / Daily_Traffic
Если n=50,000, Daily_Traffic=10,000: Дни теста = 50,000 × 2 / 10,000 = 10 дней
6. Базовая конверсия/метрика (baseline)
Что это? Текущее значение метрики до теста.
Как влияет:
- Низкая базовая конверсия (1%) → нужна больша выборка (больше шума)
- Высокая базовая конверсия (30%) → выборка меньше (меньше шума, ближе к нормальному распределению)
Примеры:
- Sign-up conversion 50% → n=800 для δ=10%
- Sign-up conversion 5% → n=6,500 для δ=10% relative
- Sign-up conversion 0.5% → n=65,000 для δ=10% relative
7. Сезонность и волатильность
Что это? Изменение поведения пользователей в зависимости от времени.
Примеры волатильности:
- Черная пятница: конверсия в 10x выше обычного
- Выходной день: трафик падает на 70%
- Начало/конец месяца: разные паттерны
- Новая когорта: поведение отличается от опытных
Как учитывать:
- Избегай тестирования в периоды высокой волатильности
- Увеличь n на 20-30% если тестируешь в нестабильный период
- Используй CUPED для контроля за предыдущих данными
8. Количество групп в тесте
Что это? Не всегда просто A vs B. Могут быть варианты.
Примеры:
- A/B test (2 группы): control vs treatment
- Multi-variant test (3+ группы): control vs variant1 vs variant2
- Factorial design (6-8 групп): комбинации параметров
Как влияет:
- 2 группы: n на группу
- 3 группы: n×1.5 на группу (примерно)
- 4 группы: n×1.8-2 на группу
Правило: каждая дополнительная группа требует дополнительных участников для поддержания мощности теста.
9. Порядок метрики (primary vs secondary)
Что это? На какую метрику оптимизируем?
Примеры:
- Primary: конверсия в подписку
- Secondary: retention day-1
- Tertiary: revenue
Как влияет:
- Primary метрика: стандартный расчёт n
- Secondary метрика: нужна примерно 1.5-2x больше для Bonferroni correction
- Множественные тесты: correction за количество метрик
10. Допустимая длительность теста
Что это? Сколько дней/недель ты готов ждать результата?
Бизнес-ограничения:
- Нужен результат за 1 неделю → ограничение на n
- Можешь ждать 4 недели → больше гибкости
- Если n > доступной выборки → невозможно провести тест
Решение: либо увеличить δ (ищешь больший эффект), либо ждать дольше.
11. Экономия на данных: техники снижения n
1. CUPED (Controlled-Experiment Using Prediction As Covariable)
Используешь исторические данные пользователя для коррекции.
- Снижает σ на 20-50%
- Требует 2+ недель истории
2. Stratified sampling
Разделяешь пользователей на стратумы (новые, ветераны, платящие) и тестируешь отдельно.
- Снижает σ внутри группы
- Реалистичнее результаты
3. Ratio-based allocation
Неравномерное разделение: 70% в control, 30% в treatment
- Экономишь на treatment если он дороже тестировать
- Больше данных в control для baseline
12. Готовность инфраструктуры к тесту
Что это? Технические возможности системы.
Факторы:
- Латентность системы: если медленно, нужно больше данных
- Качество трекинга: если ошибки в трекинге, нужно больше выборка (более чистые данные)
- Способность рандомизировать: если рандомизация некорректна, тест невалиден
Практический чеклист перед запуском теста
- Определена primary метрика
- Рассчитано базовое значение метрики
- Согласовано δ (минимально значим. улучшение)
- Рассчитан требуемый n
- Оценена дневная выборка (Daily_Traffic)
- Рассчитана длительность теста
- Проверена инфраструктура (трекинг, рандомизация)
- Учтена сезонность и волатильность периода
- Применены техники оптимизации (CUPED и т.д.)
- Зарезервирована буферная выборка (на потери данных)
Формула комплексная
Дни теста = (Z_α/2 + Z_β)² × σ² × 2 / δ² / Daily_Traffic
Эта формула объединяет все факторы: статистические (α, β, σ) и практические (δ, Daily_Traffic).