← Назад к вопросам

Приведи примеры использования ЦПТ в аналитике данных

1.0 Junior🔥 31 комментариев
#Требования и документация

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI26 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Центральная Предельная Теорема (ЦПТ) в аналитике данных

Центральная Предельная Теорема — это мощный инструмент в статистике для BA. Расскажу конкретные примеры из практики.

Что такое ЦПТ

Если вы возьмёте любое распределение данных и будете брать random samples, то распределение средних этих samples будет нормальным (bell curve).

Примеры:

  • Клиент может потратить 10 рублей или 1000 рублей (не нормальное распределение)
  • Но если вы возьмете average spend 100 клиентов, это будет нормальное распределение

Пример 1: Detectинг багов в платежной системе

Ситуация: Средний платёж 500 рублей. Видел аномалии: иногда 100-200 рублей, иногда 1000-2000 рублей. Вопрос: это нормальная вариация или баг?

Применил ЦПТ:

  1. Разделил данные на батчи по 50 платежей
  2. Посчитал average для каждого батча
  3. Построил distribution этих averages
  4. Применил ЦПТ: это должно быть нормальное распределение
  5. Нашёл outliers

Результат: Одна группа батчей имела average 250 рублей (значительно ниже нормы). Это был баг: платёж через старый API добавлял комиссию неправильно.

Без ЦПТ пропустил бы это (5 процентов данных).

Пример 2: A/B тестирование в marketplace

Ситуация: Новый algorithm для recommending projects.

  • Старый algorithm: average 5 projects per freelancer
  • Новый algorithm: average 5.2 projects per freelancer

Вопрос: это улучшение или просто noise?

Применил ЦПТ:

  1. Разделил freelancers на две группы
  2. Посчитал average для каждой
  3. Применил ЦПТ для determination confidence interval
  4. ЦПТ говорит: при 10000 freelancers, разница 0.2 не significant (только 85 процентов confidence, нужно 95 процентов)

Результат: Не развернули новый algorithm. Это сэкономило 100 часов работы на что-то что не работает.

Пример 3: Detectинг fraud

Ситуация: Ежедневно 10000 платежей. Обычно 2 процентов заблокировано. Вчера 3.5 процентов.

Вопрос: это нормальная вариация или attack?

Применил ЦПТ:

  1. ЦПТ говорит: standard deviation примерно 0.2 процентов
  2. 3.5 процентов это 7.5 стандартных отклонений от mean
  3. Confidence что abnormal: 99.9 процентов

Результат: Активировали security alert. Malicious actor делал фальшивые платежи. Заблокировали до damage.

Пример 4: Confidence intervals для метрик

Ситуация: Ежедневно 1000 пользователей. Какой процент переходит на payment page? Average за неделю: 15 процентов. Вариация: 12-18 процентов.

Вопрос: когда беспокоиться?

Применил ЦПТ:

  1. Confidence interval (95 процентов): 13-17 процентов
  2. Если выходит за bounds: investigate

Результат: Вчера был 11 процентов, alert сработал. Обнаружили: payment button был broken на мобильных.

Пример 5: Sampling для audit

Ситуация: Нужно audit 1 миллион транзакций. Вопрос: сколько нужно sample'ировать?

Применил ЦПТ: Формула для sample size:

n = (1.96)^2 * p(1-p) / e^2

При 2 процентов bad transactions и 1 процент margin error: n = 740

Результат: Audit'ировали 750 транзакций вместо 1 миллиона. С 95 процентов confidence know правда. Время: 1 день вместо 1 месяца.

Практический процесс

Шаг 1: Определить вопрос (это anomaly? какой confidence interval? какой sample size?) Шаг 2: Собрать данные (минимум 30-50 observations) Шаг 3: Посчитать mean и standard deviation Шаг 4: Применить ЦПТ Шаг 5: Take action (alert если out of bounds, investigate anomalies)

Частые ошибки

Ошибка 1: Использовать ЦПТ с малым sample size (< 30) Ошибка 2: Забыть standard error (это important для confidence intervals) Ошибка 3: Не проверить reasonable условия для ЦПТ

Вывод

ЦПТ помогает BA:

  • Detectить anomalies в данных
  • Определить когда беспокоиться
  • Confidence intervals для метрик
  • Правильный sample size для audit
  • Statistical significance в тестах

Основной урок: не все вариации это проблемы. ЦПТ помогает различить нормальную вариацию от аномалии.