Зависит ли числитель от знаменателя в ratio-метрике?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Зависимость между числителем и знаменателем в ratio-метриках
Это критический вопрос, который определяет правильность анализа. И ответ часто зависит от природы самой метрики.
Классификация ratio-метрик
Независимые числитель и знаменатель
Примеры:
-
ARPU = Доход / Количество пользователей
- Доход генерируется покупками
- Количество пользователей — просто размер базы
- Они независимы: прирост доходов не влияет на количество юзеров
-
Cost per acquisition (CPA) = Расходы на маркетинг / Количество привлёченных пользователей
- Если потратить больше денег, точно придёт больше пользователей
- Но это контрольная метрика, а не независимая зависимость
Анализ: для таких метрик можно анализировать числитель и знаменатель отдельно.
Зависимые числитель и знаменатель
Примеры:
-
Конверсия = Количество конверсий / Количество визитов
- Визиты — это просмотры разных страниц
- Конверсии — подмножество визитов, где произошла покупка
- Полная зависимость: высокая конверсия должна быть ≤ 100%
- Если конверсия растёт, это обычно влияет на визиты
-
Engagement rate = Количество лайков / Количество просмотров
- Лайки — подмножество просмотров
- Если растёт количество лайков, растёт количество просмотров (или падает, если контент плохой)
- Структурная зависимость
-
Bounce rate = Пользователи, ушедшие со страницы / Общее количество пользователей
- Bounce rate ≤ 100% всегда (структурная граница)
- Логическая зависимость: если страница хорошая, bounce rate падает
-
Среднее время на странице = Общее время / Количество просмотров
- Время пропорционально просмотрам
- Структурная зависимость
Проблемы при игнорировании зависимости
Проблема 1: Simpson's Paradox (парадокс Симпсона)
Это когда ratio растёт, но оба компонента падают (или наоборот).
Реальный пример из e-commerce:
Тестируем новый способ оплаты. Результаты первого дня:
- Контроль: 100 визитов, 10 конверсий = 10% конверсия
- Тест: 200 визитов, 16 конверсий = 8% конверсия
Локальный вывод: новый способ хуже, конверсия упала.
Но посмотрим внимательнее (по источникам трафика):
Desktop:
- Контроль: 50 визитов, 10 конверсий = 20%
- Тест: 100 визитов, 25 конверсий = 25% ✓ (лучше)
Mobile:
- Контроль: 50 визитов, 0 конверсий = 0%
- Тест: 100 визитов, -9 конверсий = -9% (невозможно!)
Парадокс: глобально хуже, по сегментам лучше.
Причина: распределение трафика между desktop и mobile изменилось. Мобильный трафик менее конвертим.
Проблема 2: Spurious correlation (ложная корреляция)
Когда числитель и знаменатель движутся в противоположных направлениях, ratio может расти или падать случайно.
Пример:
- Доход = $1000, Юзеры = 100, ARPU = $10
- Доход растёт до $1100 (на 10%)
- Юзеры падают до 90 (на 10%)
- ARPU = $1100 / 90 = $12.2 (+22%!)
AARPU вырос на 22%, хотя основные метрики изменились на 10%. Это может быть случайность, а не реальный прирост.
Как правильно анализировать
Шаг 1: Поймите природу ratio
Спросите:
- Числитель и знаменатель — это подмножество/целое или независимые величины?
- Есть ли математические ограничения (0-100%)?
- Они коррелируют логически?
Шаг 2: Анализируйте компоненты
Всегда смотрите на числитель и знаменатель отдельно:
Конверсия выросла на 15%?
→ Проверьте: выросли ли конверсии? Упали ли визиты?
→ Или конверсии упали, визиты упали ещё больше?
Шаг 3: Используйте правильный статистический тест
Для зависимых компонентов (конверсия, engagement):
- Bootstrap по компонентам отдельно
- Затем рассчитать ratio для каждой выборки
- Смотреть доверительный интервал ratio
Для независимых компонентов (ARPU):
- Можно анализировать отдельно
- Или использовать CUPED (предварительно скорректированный экспериментальный дизайн)
Шаг 4: Сегментируйте
Обязательно разбейте на подгруппы:
- По устройству (desktop, mobile, tablet)
- По географии
- По когорте пользователей
Это помогает избежать парадокса Симпсона.
Мой практический совет
Золотое правило: НИКОГДА не смотри только на ratio, всегда смотри на компоненты.
Если я вижу, что конверсия выросла на 10%, первое, что я делаю:
- Беру исходные числа: визиты и конверсии
- Считаю процент изменения для каждого
- Ищу объяснение, почему ratio вырос именно на 10%
Пример анализа
Сценарий: ARPU вырос на 20% в тесте vs контроль
Мой анализ:
- Доход вырос на 30% → хорошо
- Пользователи вырос на 8% → хорошо
- Ratio = 30% / 108% = +20% ✓ Логично
Но если:
- Доход упал на 10%
- Пользователи упал на 25%
- Ratio = -10% / -75% = +86%
Это подозрительно. Может быть случайностью или Simpson's Paradox.
Вывод
Зависимость между числителем и знаменателем существует в большинстве ratio-метрик. Это не ошибка, это особенность. Главное — учитывать её при анализе и всегда смотреть на компоненты, а не только на итоговое соотношение.