Как отличить корреляцию от причинно-следственной связи? Приведите примеры из продуктовой аналитики.?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Корреляция vs Причинно-следственная связь
Это один из самых частых ошибок в продуктовой аналитике. Много раз видел, как коллеги делают неправильные выводы, потому что путают эти два понятия. Это может привести к неправильным решениям и напрасным затратам на разработку.
Базовое различие
Корреляция — два события происходят вместе, движутся в одном направлении. Коэффициент корреляции показывает силу связи, но ничего не говорит о причине.
Причинно-следственная связь — одно событие вызывает другое. А вызывает Б.
Можно найти корреляцию между чем угодно, если хватит данных. Но это не означает, что одно вызывает другое.
Классические примеры парадоксов
Пример 1: Количество пожарных и ущерб от пожара
Данные показывают сильную положительную корреляцию: чем больше пожарных, тем больше ущерб. Но причинно-следственная связь наоборот: большой пожар требует больше пожарных. Причина — размер пожара, он влияет на обе переменные.
Пример 2: Мороженое и утопления
В летние месяцы растёт продажа мороженого и одновременно растёт количество утоплений. Коррелирует? Да. Мороженое вызывает утопления? Нет. Причина — теплое время года.
Примеры из продуктовой аналитики
Кейс 1: Email и Retention
Я наблюдал сильную корреляцию: пользователи, которые получают больше email-писем, имеют выше retention. Вывод: нужно слать больше писем!
НО погодите. На самом деле это может быть наоборот: активные пользователи получают больше писем (потому что они активны, а значит совершают действия, которые триггерят письма) И у них выше retention. Письма не причина, а следствие активности.
Решение: A/B тест. Случайно разбили пользователей на две группы, одной увеличили частоту писем, другой уменьшили. Если retention в обеих группах одинаков — письма не причина. Если в группе с частыми письмами упал retention — письма вредят.
Кейс 2: Новая фича и DAU
Выкатили новую фичу в понедельник, и DAU выросли на 15% к пятнице. Причина — фича? Или это сезонность (люди больше на выходные используют)?
Решение: Control group. Если нет, посмотри на historical pattern в этот день недели в прошлые недели. Или используй diff-in-diff: сравни прирост в интересующей когорте с приростом в контрольной.
Кейс 3: Цена и конверсия
Заметили, что когда цена выше, конверсия ниже. Очевидная причинно-следственная связь? Но может быть:
- Вы поднимали цену когда demand слаб (причина — спрос, он влияет и на цену, и на конверсию)
- Другой маркетинг трафик в разные периоды
- Сезонность
Решение: Случайный A/B тест с разными ценами на одного пользователя. Контролируем все переменные, вариируем только цену.
Методы для выявления причинности
1. A/B тесты — gold standard. Случайное распределение пользователей в control и treatment группы гарантирует, что различия в outcomes вызваны только тестируемой переменной.
2. Diff-in-Diff (Difference-in-Differences)
Сравниваем изменение метрики в группе, которая получила фичу, с группой, которая её не получила.
SELECT
group,
period,
AVG(retention) as avg_retention
FROM user_metrics
WHERE date BETWEEN '2024-01-01' AND '2024-03-31'
GROUP BY group, period
Затем:
- Найти изменение в treatment: (after - before)
- Найти изменение в control: (after - before)
- Diff-in-Diff = изменение treatment - изменение control
3. Instrumental Variable
Найти переменную Z, которая влияет на X (нашу гипотезу), но не на Y (исход), кроме как через X.
4. Propensity Score Matching
Для когда A/B тест невозможен. Подбираем в control группе пользователей с похожими характеристиками на treatment группу.
5. Анализ временных лагов
Если Х вызывает Y, то X должен предшествовать Y. Если X и Y происходят одновременно — вероятно, есть третий фактор.
Практические советы
- Всегда спрашивай: может ли быть обратная связь? Может ли быть третий фактор?
- Проверяй гипотезы с пользователями: интервью и research помогают понять механизм
- Используй domain knowledge: если ты знаешь, как работает продукт, ты заметишь нелогичные корреляции
- Будь скептичен к красивым паттернам: слишком совершенные корреляции часто оказываются артефактами данных
Главное правило: "Correlation is not causation" — это должна быть мантра каждого аналитика.