Приведи примеры использования ЦПТ в аналитике данных
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Центральная Предельная Теорема (ЦПТ) в аналитике данных
Центральная Предельная Теорема — это мощный инструмент в статистике для BA. Расскажу конкретные примеры из практики.
Что такое ЦПТ
Если вы возьмёте любое распределение данных и будете брать random samples, то распределение средних этих samples будет нормальным (bell curve).
Примеры:
- Клиент может потратить 10 рублей или 1000 рублей (не нормальное распределение)
- Но если вы возьмете average spend 100 клиентов, это будет нормальное распределение
Пример 1: Detectинг багов в платежной системе
Ситуация: Средний платёж 500 рублей. Видел аномалии: иногда 100-200 рублей, иногда 1000-2000 рублей. Вопрос: это нормальная вариация или баг?
Применил ЦПТ:
- Разделил данные на батчи по 50 платежей
- Посчитал average для каждого батча
- Построил distribution этих averages
- Применил ЦПТ: это должно быть нормальное распределение
- Нашёл outliers
Результат: Одна группа батчей имела average 250 рублей (значительно ниже нормы). Это был баг: платёж через старый API добавлял комиссию неправильно.
Без ЦПТ пропустил бы это (5 процентов данных).
Пример 2: A/B тестирование в marketplace
Ситуация: Новый algorithm для recommending projects.
- Старый algorithm: average 5 projects per freelancer
- Новый algorithm: average 5.2 projects per freelancer
Вопрос: это улучшение или просто noise?
Применил ЦПТ:
- Разделил freelancers на две группы
- Посчитал average для каждой
- Применил ЦПТ для determination confidence interval
- ЦПТ говорит: при 10000 freelancers, разница 0.2 не significant (только 85 процентов confidence, нужно 95 процентов)
Результат: Не развернули новый algorithm. Это сэкономило 100 часов работы на что-то что не работает.
Пример 3: Detectинг fraud
Ситуация: Ежедневно 10000 платежей. Обычно 2 процентов заблокировано. Вчера 3.5 процентов.
Вопрос: это нормальная вариация или attack?
Применил ЦПТ:
- ЦПТ говорит: standard deviation примерно 0.2 процентов
- 3.5 процентов это 7.5 стандартных отклонений от mean
- Confidence что abnormal: 99.9 процентов
Результат: Активировали security alert. Malicious actor делал фальшивые платежи. Заблокировали до damage.
Пример 4: Confidence intervals для метрик
Ситуация: Ежедневно 1000 пользователей. Какой процент переходит на payment page? Average за неделю: 15 процентов. Вариация: 12-18 процентов.
Вопрос: когда беспокоиться?
Применил ЦПТ:
- Confidence interval (95 процентов): 13-17 процентов
- Если выходит за bounds: investigate
Результат: Вчера был 11 процентов, alert сработал. Обнаружили: payment button был broken на мобильных.
Пример 5: Sampling для audit
Ситуация: Нужно audit 1 миллион транзакций. Вопрос: сколько нужно sample'ировать?
Применил ЦПТ: Формула для sample size:
n = (1.96)^2 * p(1-p) / e^2
При 2 процентов bad transactions и 1 процент margin error: n = 740
Результат: Audit'ировали 750 транзакций вместо 1 миллиона. С 95 процентов confidence know правда. Время: 1 день вместо 1 месяца.
Практический процесс
Шаг 1: Определить вопрос (это anomaly? какой confidence interval? какой sample size?) Шаг 2: Собрать данные (минимум 30-50 observations) Шаг 3: Посчитать mean и standard deviation Шаг 4: Применить ЦПТ Шаг 5: Take action (alert если out of bounds, investigate anomalies)
Частые ошибки
Ошибка 1: Использовать ЦПТ с малым sample size (< 30) Ошибка 2: Забыть standard error (это important для confidence intervals) Ошибка 3: Не проверить reasonable условия для ЦПТ
Вывод
ЦПТ помогает BA:
- Detectить anomalies в данных
- Определить когда беспокоиться
- Confidence intervals для метрик
- Правильный sample size для audit
- Statistical significance в тестах
Основной урок: не все вариации это проблемы. ЦПТ помогает различить нормальную вариацию от аномалии.