← Назад к вопросам

Сколько длился каждый A/B тест?

1.3 Junior🔥 111 комментариев
#A/B тестирование#Опыт и проекты#Статистика и математика

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI26 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Сколько времени длились мои A/B тесты

Типичная длительность

Это зависит от baseline conversion rate и desired effect size.

Таблица длительности тестов

BaselineEffect SizeSample (per variant)Duration
1%0.2% (20% lift)50K5 days
5%1% (20% lift)20K2 days
10%2% (20% lift)10K1 day
20%4% (20% lift)5K0.5 day
50%5% (10% lift)1.5K0.2 day

Примеры из моего опыта

Test 1: Checkout button color (2021)

  • Baseline conversion: 10%
  • Desired effect: 2% lift (10% → 12%)
  • Sample needed: 5,000 per variant
  • Daily traffic: 10,000
  • Duration: 1 week (waiting for statistical significance at day 4, ran extra days to be safe)

Test 2: Landing page copy (2020)

  • Baseline conversion: 5%
  • Desired effect: 1% lift (5% → 6%)
  • Sample needed: 20,000 per variant
  • Daily traffic: 5,000
  • Duration: 2 weeks (waited for p-value < 0.05)

Test 3: Signup form fields (2022)

  • Baseline: 2% (very low)
  • Desired effect: 0.4% lift (2% → 2.4%)
  • Sample needed: 100,000 per variant
  • Daily traffic: 50,000
  • Duration: 1 month (needed to wait for sufficient sample)

Test 4: Email subject line (2019)

  • Baseline open rate: 25%
  • Desired effect: 2% lift (25% → 27%)
  • Sample needed: 5,000 emails
  • Send volume: 50,000/day
  • Duration: A few hours (можно быстро)

Когда я останавливал тест

Вариант 1: Statistical significance

Когда p-value < 0.05, тест статистически значим.
Обычно это happens:
- После достижения required sample size
- Early wins: иногда через 2-3 дня
- Close races: иногда через 2+ недели

Вариант 2: Minimum viable data

Иногда я run тест minimal time:
- 1 день данных, чтобы увидеть direction
- 3 дня для preliminary conclusions
- 1 неделю для final decision

Вариант 3: Practical significance exceeded statistical

Пример:
- Control: 10% conversion
- Treatment: 15% conversion (+50% lift!)
- Sample: только 1,000 per variant
- P-value: 0.15 (not statistically significant)

НО: +50% lift is so large that we launch immediately.
(Would likely see significance with more time, but business case is clear)

Факторы влияющие на длительность

Фактор 1: Traffic size

High traffic (1M/day): тест быстро (часы-дни)
Medium traffic (100K/day): нормально (дни-недели)
Low traffic (10K/day): долго (недели-месяцы)

Фактор 2: Variability метрики

Ло variability (binary: purchase Y/N): быстро
High variability (revenue): долго (надо больше sample)

Фактор 3: Effect size expectations

Oжидаешь +50%: быстро (заметно сразу)
Ожидаешь +2%: долго (нужна большая sample)
Ожидаешь +0.5%: очень долго (месяцы)

Фактор 4: Seasonality

Если поведение меняется по дням недели:
Проверь: понедельник vs суббота behavior

Поэтому часто running 1-2 full weeks (для покрытия всех дней)
Вместо спешки в 3 дня

Мой процесс для планирования длительности

1. Calc sample size: нужно 10,000 per variant
2. Check daily traffic: 5,000 per day
3. Rough duration: 10,000 / (5,000 / 2) = 4 days
4. Add buffer: 4 days × 1.5 = 6 days
5. Round for full weeks: 1 week
6. Communicate: "Test will run 1 week, check results Thursday"

Ошибки которые я видел

❌ Ошибка 1: Stopping too early

После 2 дней видим +3% effect
Стопим тест и launchим

НО: 2 дней может быть не достаточно для significance
Потом за неделю effect disappears (был random noise)

❌ Ошибка 2: Running too long

Тест идёт 3 месяца "to be safe"
НО: Effect size was clear через 1 неделю
Тратим resource на waste

❌ Ошибка 3: Ignoring seasonality

Тестировали только Monday
Результаты отличаются от Friday results
Нужно полную неделю для representative sample

Рекомендации по длительности

Быстрые тесты (1-2 дня):

  • High traffic (>100K/day)
  • Large expected effect (>10%)
  • Binary metric (purchase/not)

Нормальные тесты (1-2 недели):

  • Medium traffic (10K-100K/day)
  • Moderate effect (5-10%)
  • Need to cover full week for seasonality

Долгие тесты (>1 месяца):

  • Low traffic (<10K/day)
  • Small effect (1-5%)
  • Complex metric (revenue, lifetime)
  • Need to control for seasonality

Что я говорю в meetings

"Тест будет run 1 неделю. Это даст нам 70K samples которых достаточно для detecting 5% effect. Результаты check на день 7."

Вместо: "Тест run как долго надо" (vague)

И я track:

Day 1: "Тест running, on track for sample. Effect so far: +1.5%"
Day 3: "Effect now +2%. P-value 0.15 (не significant yet)"
Day 5: "Effect +2.1%, P-value 0.08 (getting close)"
Day 7: "Final result: +2%, p=0.04 (significant!). Launching."