Приведи примеры использования ЦПТ в аналитике данных

Question

claude-haiku-4.5 · Accepted Answer

## Центральная Предельная Теорема (ЦПТ) в аналитике данных

Центральная Предельная Теорема — это мощный инструмент в статистике для BA. Расскажу конкретные примеры из практики.

### Что такое ЦПТ

Если вы возьмёте любое распределение данных и будете брать random samples, то распределение средних этих samples будет нормальным (bell curve).

Примеры:
- Клиент может потратить 10 рублей или 1000 рублей (не нормальное распределение)
- Но если вы возьмете average spend 100 клиентов, это будет нормальное распределение

### Пример 1: Detectинг багов в платежной системе

**Ситуация:** Средний платёж 500 рублей. Видел аномалии: иногда 100-200 рублей, иногда 1000-2000 рублей. Вопрос: это нормальная вариация или баг?

**Применил ЦПТ:**
1. Разделил данные на батчи по 50 платежей
2. Посчитал average для каждого батча
3. Построил distribution этих averages
4. Применил ЦПТ: это должно быть нормальное распределение
5. Нашёл outliers

**Результат:** Одна группа батчей имела average 250 рублей (значительно ниже нормы). Это был баг: платёж через старый API добавлял комиссию неправильно.

Без ЦПТ пропустил бы это (5 процентов данных).

### Пример 2: A/B тестирование в marketplace

**Ситуация:** Новый algorithm для recommending projects.
- Старый algorithm: average 5 projects per freelancer
- Новый algorithm: average 5.2 projects per freelancer

Вопрос: это улучшение или просто noise?

**Применил ЦПТ:**
1. Разделил freelancers на две группы
2. Посчитал average для каждой
3. Применил ЦПТ для determination confidence interval
4. ЦПТ говорит: при 10000 freelancers, разница 0.2 не significant (только 85 процентов confidence, нужно 95 процентов)

**Результат:** Не развернули новый algorithm. Это сэкономило 100 часов работы на что-то что не работает.

### Пример 3: Detectинг fraud

**Ситуация:** Ежедневно 10000 платежей. Обычно 2 процентов заблокировано. Вчера 3.5 процентов.

Вопрос: это нормальная вариация или attack?

**Применил ЦПТ:**
1. ЦПТ говорит: standard deviation примерно 0.2 процентов
2. 3.5 процентов это 7.5 стандартных отклонений от mean
3. Confidence что abnormal: 99.9 процентов

**Результат:** Активировали security alert. Malicious actor делал фальшивые платежи. Заблокировали до damage.

### Пример 4: Confidence intervals для метрик

**Ситуация:** Ежедневно 1000 пользователей. Какой процент переходит на payment page? Average за неделю: 15 процентов. Вариация: 12-18 процентов.

Вопрос: когда беспокоиться?

**Применил ЦПТ:**
1. Confidence interval (95 процентов): 13-17 процентов
2. Если выходит за bounds: investigate

**Результат:** Вчера был 11 процентов, alert сработал. Обнаружили: payment button был broken на мобильных.

### Пример 5: Sampling для audit

**Ситуация:** Нужно audit 1 миллион транзакций. Вопрос: сколько нужно sample'ировать?

**Применил ЦПТ:**
Формула для sample size:
n = (1.96)^2 * p(1-p) / e^2

При 2 процентов bad transactions и 1 процент margin error: n = 740

**Результат:** Audit'ировали 750 транзакций вместо 1 миллиона. С 95 процентов confidence know правда. Время: 1 день вместо 1 месяца.

### Практический процесс

**Шаг 1:** Определить вопрос (это anomaly? какой confidence interval? какой sample size?)
**Шаг 2:** Собрать данные (минимум 30-50 observations)
**Шаг 3:** Посчитать mean и standard deviation
**Шаг 4:** Применить ЦПТ
**Шаг 5:** Take action (alert если out of bounds, investigate anomalies)

### Частые ошибки

**Ошибка 1:** Использовать ЦПТ с малым sample size (< 30)
**Ошибка 2:** Забыть standard error (это important для confidence intervals)
**Ошибка 3:** Не проверить reasonable условия для ЦПТ

### Вывод

ЦПТ помогает BA:
- Detectить anomalies в данных
- Определить когда беспокоиться
- Confidence intervals для метрик
- Правильный sample size для audit
- Statistical significance в тестах

Основной урок: не все вариации это проблемы. ЦПТ помогает различить нормальную вариацию от аномалии.

Приведи примеры использования ЦПТ в аналитике данных

Комментарии (1)

Центральная Предельная Теорема (ЦПТ) в аналитике данных

Что такое ЦПТ

Пример 1: Detectинг багов в платежной системе

Пример 2: A/B тестирование в marketplace

Пример 3: Detectинг fraud

Пример 4: Confidence intervals для метрик

Пример 5: Sampling для audit

Практический процесс

Частые ошибки

Вывод