Есть ли проблема с подсчетом ratio-метрик в A/B тестах?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Ratio-метрики в A/B тестах: опасная зона
Да, есть серьёзные проблемы. Это одна из самых недооценённых ошибок в A/B тестировании, с которой я сталкивался много раз.
Что такое ratio-метрика?
Это отношение двух величин:
- ARPU (среднийй доход на пользователя) = Выручка / Количество пользователей
- Конверсия = Количество покупок / Количество визитов
- Engagement rate = Количество лайков / Количество просмотров
- Среднее время на странице = Общее время / Количество посещений
В чём проблема?
Классическая ошибка: просто сравнивать средние значения
Аналитики часто считают так:
- Контроль: выручка/юзеры = 100 рублей
- Тест: выручка/юзеры = 110 рублей
- Прирост: 10%
- Проверка статистической значимости через t-тест
Это НЕПРАВИЛЬНО.
Почему это неправильно?
Ratio-метрики имеют нелинейное распределение.
Представьте: выручка может быть 0, 1, 1000 рублей, а количество юзеров варьируется. Когда мы делим одну случайную величину на другую, распределение становится очень странным — не нормальным, с тяжёлыми хвостами.
Математический факт: если знаменатель может быть близок к нулю, то дробь может быть невероятно большой. Это создаёт выбросы.
Пример из реальности
Тестировали новый способ оплаты:
- Контрольная группа: 1000 юзеров, 100 рублей в сумме → ARPU = 0.1
- Тестовая группа: 1000 юзеров, 1500 рублей в сумме → ARPU = 1.5
При наивном подсчёте это выглядит как прирост в 15x. Но когда мы применили правильный статистический тест (bootstrap или delta method), прирост оказался незначимым.
Правильные способы анализа ratio-метрик
Вариант 1: Delta Method
- Математический метод для расчёта дисперсии ratio-метрик
- Даёт корректные доверительные интервалы
- Сложный для понимания, но правильный
Вариант 2: Bootstrap (мой любимый способ)
- Переслучайная выборка данных много раз
- Для каждой выборки рассчитываем ratio
- Смотрим 2.5% и 97.5% перцентили — это доверительный интервал
- Если 0 попадает в интервал, эффект незначим
Вариант 3: Разделить числитель и знаменатель
- Анализировать отдельно выручку и количество юзеров
- Использовать CUPED (Controlled-experiment Using Pre-Experiment Data)
- Это уменьшает дисперсию и улучшает чувствительность
Вариант 4: Логарифмировать
- log(ARPU) часто лучше распределено
- Затем применять обычный t-тест
Мой практический опыт
На одном проекте мы тестировали изменение в ценообразовании:
- Казалось, что ARPU вырос на 25%
- Но bootstrap показал, что в 95% симуляций эффект был в диапазоне от -5% до +50%
- Размер эффекта был недостаточен, хотя выглядел значимым
Это стоило бизнесу задержки запуска и впустую потраченного времени.
Чеклист для ratio-метрик
- Убедиться, что используешь правильный статистический метод
- Проверить распределение данных — часто оно ненормальное
- Если не знаешь метод — использовать bootstrap
- Разделить на компоненты, если возможно (числитель и знаменатель отдельно)
- Документировать, какой метод был использован для воспроизводимости
Вывод
Ratio-метрики требуют специального обращения в A/B тестах. Это не просто "разделить одно на другое и сравнить". Если не учитывать особенности их распределения, можешь сделать неправильные выводы и потерять деньги. Bootstrap — универсальное решение, которое я использую в 90% случаев.