← Назад к вопросам

От чего зависит объем выборки для теста

2.0 Middle🔥 201 комментариев
#A/B тестирование#Статистика и математика

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI26 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

От чего зависит объём выборки для теста

Это дополнение к предыдущему ответу, фокус на практических факторах, влияющих на размер выборки.

Основные статистические факторы (повтор)

1. Уровень значимости (α)

  • Стандарт: 5% (95% confidence)
  • Для критичных: 1% (99% confidence)
  • Увеличение α → меньше участников нужно

2. Статистическая мощность (1-β)

  • Стандарт: 80% мощность
  • Для важного: 90%
  • Увеличение power → больше участников нужно

3. Величина эффекта (δ)

  • Минимально интересующее улучшение
  • Это самый важный фактор — сильнее всего влияет на n

4. Вариативность метрики (σ²)

  • Разброс значений в контрольной группе
  • Больше шума → больше выборка нужна

Практические бизнес-факторы

5. Ежедневный/недельный трафик продукта

Что это? Реальная пропускная способность — сколько пользователей попадает в тест в день/неделю.

Примеры:

  • SaaS с 100,000 DAU → можешь набрать 50,000 на группу за 1 неделю
  • Мобильное приложение с 10,000 DAU → нужно 5-10 недель для того же
  • E-commerce с 500 заказов/день → если нужно n=10,000, тест идёт 20 дней

Как использовать:

Дни теста = n × 2 / Daily_Traffic

Если n=50,000, Daily_Traffic=10,000: Дни теста = 50,000 × 2 / 10,000 = 10 дней

6. Базовая конверсия/метрика (baseline)

Что это? Текущее значение метрики до теста.

Как влияет:

  • Низкая базовая конверсия (1%) → нужна больша выборка (больше шума)
  • Высокая базовая конверсия (30%) → выборка меньше (меньше шума, ближе к нормальному распределению)

Примеры:

  • Sign-up conversion 50% → n=800 для δ=10%
  • Sign-up conversion 5% → n=6,500 для δ=10% relative
  • Sign-up conversion 0.5% → n=65,000 для δ=10% relative

7. Сезонность и волатильность

Что это? Изменение поведения пользователей в зависимости от времени.

Примеры волатильности:

  • Черная пятница: конверсия в 10x выше обычного
  • Выходной день: трафик падает на 70%
  • Начало/конец месяца: разные паттерны
  • Новая когорта: поведение отличается от опытных

Как учитывать:

  • Избегай тестирования в периоды высокой волатильности
  • Увеличь n на 20-30% если тестируешь в нестабильный период
  • Используй CUPED для контроля за предыдущих данными

8. Количество групп в тесте

Что это? Не всегда просто A vs B. Могут быть варианты.

Примеры:

  • A/B test (2 группы): control vs treatment
  • Multi-variant test (3+ группы): control vs variant1 vs variant2
  • Factorial design (6-8 групп): комбинации параметров

Как влияет:

  • 2 группы: n на группу
  • 3 группы: n×1.5 на группу (примерно)
  • 4 группы: n×1.8-2 на группу

Правило: каждая дополнительная группа требует дополнительных участников для поддержания мощности теста.

9. Порядок метрики (primary vs secondary)

Что это? На какую метрику оптимизируем?

Примеры:

  • Primary: конверсия в подписку
  • Secondary: retention day-1
  • Tertiary: revenue

Как влияет:

  • Primary метрика: стандартный расчёт n
  • Secondary метрика: нужна примерно 1.5-2x больше для Bonferroni correction
  • Множественные тесты: correction за количество метрик

10. Допустимая длительность теста

Что это? Сколько дней/недель ты готов ждать результата?

Бизнес-ограничения:

  • Нужен результат за 1 неделю → ограничение на n
  • Можешь ждать 4 недели → больше гибкости
  • Если n > доступной выборки → невозможно провести тест

Решение: либо увеличить δ (ищешь больший эффект), либо ждать дольше.

11. Экономия на данных: техники снижения n

1. CUPED (Controlled-Experiment Using Prediction As Covariable)

Используешь исторические данные пользователя для коррекции.

  • Снижает σ на 20-50%
  • Требует 2+ недель истории

2. Stratified sampling

Разделяешь пользователей на стратумы (новые, ветераны, платящие) и тестируешь отдельно.

  • Снижает σ внутри группы
  • Реалистичнее результаты

3. Ratio-based allocation

Неравномерное разделение: 70% в control, 30% в treatment

  • Экономишь на treatment если он дороже тестировать
  • Больше данных в control для baseline

12. Готовность инфраструктуры к тесту

Что это? Технические возможности системы.

Факторы:

  • Латентность системы: если медленно, нужно больше данных
  • Качество трекинга: если ошибки в трекинге, нужно больше выборка (более чистые данные)
  • Способность рандомизировать: если рандомизация некорректна, тест невалиден

Практический чеклист перед запуском теста

  • Определена primary метрика
  • Рассчитано базовое значение метрики
  • Согласовано δ (минимально значим. улучшение)
  • Рассчитан требуемый n
  • Оценена дневная выборка (Daily_Traffic)
  • Рассчитана длительность теста
  • Проверена инфраструктура (трекинг, рандомизация)
  • Учтена сезонность и волатильность периода
  • Применены техники оптимизации (CUPED и т.д.)
  • Зарезервирована буферная выборка (на потери данных)

Формула комплексная

Дни теста = (Z_α/2 + Z_β)² × σ² × 2 / δ² / Daily_Traffic

Эта формула объединяет все факторы: статистические (α, β, σ) и практические (δ, Daily_Traffic).

От чего зависит объем выборки для теста | PrepBro