Зачем нужна линеаризация ratio-метрики?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Линеаризация Ratio-Метрик: Математический Фундамент
Это один из самых сложных, но критически важных концептов в продуктовой аналитике и статистике. За мой опыт я видел, как незнание этого приводило к неправильным выводам и ошибочным решениям по продакту.
Основная проблема: Ratio-метрики нелинейны
Структура ratio-метрики: CR = a / b (например, покупки / визиты)
Проблема: эта функция нелинейна. Когда изменяется числитель и знаменатель одновременно, результат меняется непредсказуемо.
Пример проблемы:
- Период 1: 100 покупок из 10 000 визитов = 1%
- Период 2: 200 покупок из 15 000 визитов = 1.33%
Как изменилась CR? На 0.33 процентных пункта. Но сколько это в абсолютном выражении? +33%. И на что это повлияло больше — на рост покупок или падение визитов? Ratio скрывает это.
Зачем нужна линеаризация?
1. Для статистического тестирования
Когда мы проводим A/B тесты и хотим посчитать доверительный интервал для ratio-метрики, стандартная статистика не работает напрямую. CR имеет нелинейное распределение, особенно при малых выборках.
Линеаризация преобразует ratio в линейную комбинацию, которая уже имеет нормальное распределение и позволяет применять стандартные t-тесты.
2. Для правильного расчета дисперсии
Дисперсия ratio-метрики вычисляется сложно:
Var(a/b) ≠ Var(a) / Var(b)
Линеаризация позволяет вычислить дисперсию через компоненты:
Var(a/b) ≈ (δa)² / b² + (δb)² × (a/b²)² - 2×Cov(a,b) × (a/b³)
Это сложно, поэтому используют линеаризацию (разложение Тейлора первого порядка).
3. Для аддитивности результатов
Когда мы аггрегируем данные из разных сегментов:
- Для абсолютных метрик: итог = сумма сегментов ✓
- Для ratio-метрик: итог ≠ средняя ratio сегментов ✗
При линеаризации ситуация улучшается — мы можем складывать линеаризованные компоненты.
Метод линеаризации: Delta Method
Формула (разложение Тейлора):
f(a,b) ≈ f(a₀,b₀) + ∂f/∂a × (a-a₀) + ∂f/∂b × (b-b₀)
Для CR = a/b:
ΔCR ≈ (1/b₀) × Δa - (a₀/b₀²) × Δb
Теперь изменение CR выражено как линейная комбинация изменений числителя и знаменателя.
Практический пример из работы
Проводим A/B тест конверсии:
- Контроль: 1000 конверсий из 100 000 визитов = 1%
- Вариант: 1050 конверсий из 95 000 визитов = 1.105%
Визуально: CR выросла на 0.105 п.п. Но надежен ли результат?
Без линеаризации: вычисляем доверительный интервал сложно, результат может быть смещен
С линеаризацией:
ΔCR ≈ (1/100000) × 50 - (0.01/10000000000) × (-5000)
ΔCR ≈ 0.0005 + 0.0005 = 0.001
Теперь мы видим, что рост CR — это баланс между ростом конверсий и падением трафика.
Где это применяется на практике
A/B тестирование: расчет p-values и доверительных интервалов
Статистический анализ: построение моделей, когда зависимая переменная — ratio
Мониторинг KPI: понимание, какой компонент ratio движет изменения
Финансовая аналитика: маржи, ROI, другие ratio-метрики