← Назад к вопросам

Что такое центральная предельная теорема?

2.0 Middle🔥 251 комментариев
#Статистика и A/B тестирование

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI30 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Центральная предельная теорема (Central Limit Theorem, CLT)

Центральная предельная теорема — это одна из самых фундаментальных теорем в статистике и теории вероятностей. Она объясняет, почему нормальное распределение так часто встречается в природе и почему оно столь важно в анализе данных.

Формальное определение

Центральная предельная теорема гласит: если мы возьмём выборку размером n из любого распределения вероятностей с конечным математическим ожиданием μ и конечной дисперсией σ², то при достаточно большом n распределение выборочного среднего будет приблизительно нормальным (гауссовым) распределением с параметрами:

Математическое ожидание: μ_mean = μ Дисперсия: σ²_mean = σ² / n

Символьно: (X̄ - μ) / (σ / √n) → N(0, 1) при n → ∞

Ключевые моменты

Исходное распределение может быть ЛЮБЫМ

Это критически важно! Исходные данные могут иметь:

  • Экспоненциальное распределение
  • Равномерное распределение
  • Биномиальное распределение
  • Любое другое асимметричное распределение

Независимо от этого — распределение выборочных средних будет стремиться к нормальному.

Размер выборки имеет значение

Чем больше n, тем точнее приближение к нормальному распределению. Обычно:

  • n ≥ 30 — приличное приближение для большинства распределений
  • n ≥ 100 — хорошее приближение
  • Для сильно асимметричных распределений может потребоваться n ≥ 1000

Практический пример

Представим популяцию с экспоненциальным распределением (очень асимметричное):

import numpy as np
import matplotlib.pyplot as plt

# 1. Генерируем выборку из экспоненциального распределения
np.random.seed(42)
population = np.random.exponential(scale=2, size=100000)

# Визуализируем исходное распределение
plt.figure(figsize=(12, 4))
plt.subplot(1, 3, 1)
plt.hist(population, bins=50, edgecolor='black')
plt.title('Исходное распределение (экспоненциальное)')
plt.xlabel('Значение')
plt.ylabel('Частота')

# 2. Берём множество выборок и вычисляем их средние
sample_size = 30
num_samples = 10000
sample_means = []

for _ in range(num_samples):
    sample = np.random.choice(population, size=sample_size, replace=True)
    sample_means.append(np.mean(sample))

# Визуализируем распределение выборочных средних
plt.subplot(1, 3, 2)
plt.hist(sample_means, bins=50, edgecolor='black', density=True)
plt.title('Распределение выборочных средних\n(n=30)')
plt.xlabel('Среднее значение')
plt.ylabel('Плотность')

# Добавим теоретическое нормальное распределение
from scipy import stats
mu = np.mean(population)
sigma = np.std(population) / np.sqrt(sample_size)
x = np.linspace(np.min(sample_means), np.max(sample_means), 100)
y = stats.norm.pdf(x, mu, sigma)
plt.plot(x, y, 'r-', linewidth=2, label='N(μ, σ²/n)')
plt.legend()

# Проверяем нормальность
plt.subplot(1, 3, 3)
stats.probplot(sample_means, dist='norm', plot=plt)
plt.title('Q-Q plot (проверка нормальности)')
plt.tight_layout()
plt.show()

print(f'Среднее выборочных средних: {np.mean(sample_means):.3f}')
print(f'Стандартное отклонение: {np.std(sample_means):.3f}')
print(f'Теоретическое σ/√n: {sigma:.3f}')

Результат: несмотря на то, что исходное распределение экспоненциальное, распределение выборочных средних становится нормальным!

Почему это важно?

Доверительные интервалы: благодаря CLT мы можем строить доверительные интервалы для среднего:

CI = X̄ ± z_α/2 * (σ / √n)

Это работает независимо от исходного распределения.

Гипотезотестирование: множество статистических тестов (t-test, ANOVA) основаны на предположении нормальности распределения выборочных средних, а не исходных данных.

Машинное обучение: многие алгоритмы (линейная регрессия, логистическая регрессия) работают лучше, когда признаки нормально распределены.

Условия применимости

  1. Независимость: наблюдения должны быть независимыми
  2. Конечная дисперсия: исходное распределение должно иметь конечную дисперсию
  3. Размер выборки: n должна быть достаточно большой
  4. Идентичное распределение: все наблюдения из одного распределения

Обобщения CLT

Многомерная CLT: применяется к векторам

Линдберг-Феллер CLT: более общий случай, когда требования не полностью выполнены

Свойство репликации: если X имеет распределение с дисперсией σ², то сумма n независимых копий имеет дисперсию nσ²

Практическое применение в анализе данных

  • A/B тестирование: оценка значимости различий между группами
  • Регрессионный анализ: стандартные ошибки коэффициентов
  • Прогнозирование: доверительные интервалы предсказаний
  • Контроль качества: мониторинг процессов

Центральная предельная теорема — это "волшебство" статистики, позволяющее нам делать выводы о населении из выборок, независимо от исходного распределения данных.

Что такое центральная предельная теорема? | PrepBro