Получалось ли заканчивать эксперимент раньше чем набралась выборка
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Досрочное завершение экспериментов: когда и как это делать
Да, получалось заканчивать эксперименты раньше плана, но это требует особой осторожности и чёткого методологического подхода. Это одна из самых сложных и дискуссионных практик в экспериментировании.
Когда можно останавливать эксперимент раньше
1. Очевидный эффект (clearcut победитель)
- Если результат настолько убедительный, что дальнейший сбор данных маловероятно изменит вывод
- Пример: CTR вырос на 300% за первые 3 дня с p-value < 0.001
- Требуется заранее установленный stopping boundary (граница остановки)
2. Явный регресс или вред
- Если вариант наносит явный ущерб бизнесу (conversion упал на 50%, выросли отписки)
- Нужно быстро остановить, чтобы не потерять аудиторию
- Требуется safety monitoring с предопределёнными правилами
3. Технические или логистические проблемы
- Баг в реализации, нарушение целостности данных
- Невозможно собрать запланированный объём данных
- Изменились внешние условия (сезонность, закон, конкуренция)
Научно обоснованные подходы
Sequential Testing (Последовательное тестирование)
Вместо фиксированного размера выборки используется sequential analysis:
Баланс между:
- Type I error (false positive α ≈ 0.05)
- Type II error (false negative β ≈ 0.20)
- Minimum Detectable Effect (MDE) = 10%
Вычисляются границы остановки:
- Верхняя граница: если достигли significance → stop, объявляем победу
- Нижняя граница: если p-value > 0.5 и нет тренда → stop, нет эффекта
- Центр: продолжаем собирать данные
SPRT (Sequential Probability Ratio Test)
Математический метод для раннего завершения:
- Вычисляется коэффициент правдоподобия на каждый день
- Если LR > B (верхний порог) → останавливаем, объявляем эффект
- Если LR < A (нижний порог) → останавливаем, нет эффекта
- Иначе → продолжаем
Group Sequential Design
Промежуточные анализы на фиксированных точках:
День 3: смотрим промежуточный результат
День 6: второй анализ
День 10: финальный анализ
Для каждой точки используется adjusted significance level (Spending function),
чтобы контролировать общий alpha-error
Практический пример из моего опыта
Проводили эксперимент с новым алгоритмом рекомендаций. План был на 2 недели, но:
День 4: Увидели, что вариант хуже контроля с p-value = 0.03. Но мы заранее установили, что не будем рано останавливать при первом отрицательном результате.
День 8: Эффект усилился (p-value = 0.001, ATE = -15% к метрике). Тогда остановили эксперимент, не дожидаясь дня 14, потому что:
- Установили заранее sequential testing правила
- Было уже ~6000 пользователей (достаточно для MDE = 10%)
- Явный тренд против варианта в течение 4 дней
Сэкономили: 2000 пользователей × 15% потери = значительный бизнес-эффект.
Ошибки, которые нельзя допускать
⚠️ Проблемы при неправильной досрочной остановке:
-
Multiple Comparisons Problem
- Если смотришь на результаты каждый день без правил, вероятность false positive растёт
- С 20 проверками: P(хотя бы одна случайная значима) ≈ 64%, хотя истинный alpha = 5%
-
Selection Bias
- Люди склонны останавливать эксперимент, если результат им нравится
- Это систематически переоценивает эффекты маленького размера
-
Regression to the Mean
- Если вариант показал большой случайный скачок, позже результат нормализуется
- Нужна достаточная выборка и time window для стабилизации
Правила (decision rules), которые я использую
Останавливаю, только если:
- ✅ Заранее (ДО запуска) установлены правила остановки
- ✅ p-value < 0.01 (более консервативно, чем 0.05)
- ✅ Эффект сохраняется минимум 3-5 дней (не случайный всплеск)
- ✅ Размер выборки ≥ 70% от планового
- ✅ Нет технических проблем в данных
Никогда не останавливаю, если:
- ❌ Правила не были установлены заранее
- ❌停 результат просто "хороший", но не статистически убедителен
- ❌ Размер выборки < 50% от планового
- ❌ Делаю это много раз в день (fishing for p-value)
Инструменты и метрики
Для контроля раннего завершения использую:
- Cumulative alpha spending — отслеживаю, сколько alpha уже потрачен
- Power analysis — считаю, достаточно ли данных для detection MDE
- Confidence intervals — смотрю не только p-value, но и диапазон эффекта
- Sequential plots — визуализирую границы остановки
Вывод
Досрочное завершение экспериментов возможно и даже желательно в некоторых случаях, но только при соблюдении чёткой научной методологии. Главное правило: правила остановки устанавливаются ДО запуска эксперимента, а не в его процессе. Это защищает от cognitive bias и статистических ошибок, которые могут привести к ложным выводам и неправильным бизнес-решениям.