Сколько длился каждый A/B тест?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Сколько времени длились мои A/B тесты
Типичная длительность
Это зависит от baseline conversion rate и desired effect size.
Таблица длительности тестов
| Baseline | Effect Size | Sample (per variant) | Duration |
|---|---|---|---|
| 1% | 0.2% (20% lift) | 50K | 5 days |
| 5% | 1% (20% lift) | 20K | 2 days |
| 10% | 2% (20% lift) | 10K | 1 day |
| 20% | 4% (20% lift) | 5K | 0.5 day |
| 50% | 5% (10% lift) | 1.5K | 0.2 day |
Примеры из моего опыта
Test 1: Checkout button color (2021)
- Baseline conversion: 10%
- Desired effect: 2% lift (10% → 12%)
- Sample needed: 5,000 per variant
- Daily traffic: 10,000
- Duration: 1 week (waiting for statistical significance at day 4, ran extra days to be safe)
Test 2: Landing page copy (2020)
- Baseline conversion: 5%
- Desired effect: 1% lift (5% → 6%)
- Sample needed: 20,000 per variant
- Daily traffic: 5,000
- Duration: 2 weeks (waited for p-value < 0.05)
Test 3: Signup form fields (2022)
- Baseline: 2% (very low)
- Desired effect: 0.4% lift (2% → 2.4%)
- Sample needed: 100,000 per variant
- Daily traffic: 50,000
- Duration: 1 month (needed to wait for sufficient sample)
Test 4: Email subject line (2019)
- Baseline open rate: 25%
- Desired effect: 2% lift (25% → 27%)
- Sample needed: 5,000 emails
- Send volume: 50,000/day
- Duration: A few hours (можно быстро)
Когда я останавливал тест
Вариант 1: Statistical significance
Когда p-value < 0.05, тест статистически значим.
Обычно это happens:
- После достижения required sample size
- Early wins: иногда через 2-3 дня
- Close races: иногда через 2+ недели
Вариант 2: Minimum viable data
Иногда я run тест minimal time:
- 1 день данных, чтобы увидеть direction
- 3 дня для preliminary conclusions
- 1 неделю для final decision
Вариант 3: Practical significance exceeded statistical
Пример:
- Control: 10% conversion
- Treatment: 15% conversion (+50% lift!)
- Sample: только 1,000 per variant
- P-value: 0.15 (not statistically significant)
НО: +50% lift is so large that we launch immediately.
(Would likely see significance with more time, but business case is clear)
Факторы влияющие на длительность
Фактор 1: Traffic size
High traffic (1M/day): тест быстро (часы-дни)
Medium traffic (100K/day): нормально (дни-недели)
Low traffic (10K/day): долго (недели-месяцы)
Фактор 2: Variability метрики
Ло variability (binary: purchase Y/N): быстро
High variability (revenue): долго (надо больше sample)
Фактор 3: Effect size expectations
Oжидаешь +50%: быстро (заметно сразу)
Ожидаешь +2%: долго (нужна большая sample)
Ожидаешь +0.5%: очень долго (месяцы)
Фактор 4: Seasonality
Если поведение меняется по дням недели:
Проверь: понедельник vs суббота behavior
Поэтому часто running 1-2 full weeks (для покрытия всех дней)
Вместо спешки в 3 дня
Мой процесс для планирования длительности
1. Calc sample size: нужно 10,000 per variant
2. Check daily traffic: 5,000 per day
3. Rough duration: 10,000 / (5,000 / 2) = 4 days
4. Add buffer: 4 days × 1.5 = 6 days
5. Round for full weeks: 1 week
6. Communicate: "Test will run 1 week, check results Thursday"
Ошибки которые я видел
❌ Ошибка 1: Stopping too early
После 2 дней видим +3% effect
Стопим тест и launchим
НО: 2 дней может быть не достаточно для significance
Потом за неделю effect disappears (был random noise)
❌ Ошибка 2: Running too long
Тест идёт 3 месяца "to be safe"
НО: Effect size was clear через 1 неделю
Тратим resource на waste
❌ Ошибка 3: Ignoring seasonality
Тестировали только Monday
Результаты отличаются от Friday results
Нужно полную неделю для representative sample
Рекомендации по длительности
Быстрые тесты (1-2 дня):
- High traffic (>100K/day)
- Large expected effect (>10%)
- Binary metric (purchase/not)
Нормальные тесты (1-2 недели):
- Medium traffic (10K-100K/day)
- Moderate effect (5-10%)
- Need to cover full week for seasonality
Долгие тесты (>1 месяца):
- Low traffic (<10K/day)
- Small effect (1-5%)
- Complex metric (revenue, lifetime)
- Need to control for seasonality
Что я говорю в meetings
"Тест будет run 1 неделю. Это даст нам 70K samples которых достаточно для detecting 5% effect. Результаты check на день 7."
Вместо: "Тест run как долго надо" (vague)
И я track:
Day 1: "Тест running, on track for sample. Effect so far: +1.5%"
Day 3: "Effect now +2%. P-value 0.15 (не significant yet)"
Day 5: "Effect +2.1%, P-value 0.08 (getting close)"
Day 7: "Final result: +2%, p=0.04 (significant!). Launching."