Что такое центральная предельная теорема?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Центральная предельная теорема (Central Limit Theorem, CLT)
Центральная предельная теорема — это одна из самых фундаментальных теорем в статистике и теории вероятностей. Она объясняет, почему нормальное распределение так часто встречается в природе и почему оно столь важно в анализе данных.
Формальное определение
Центральная предельная теорема гласит: если мы возьмём выборку размером n из любого распределения вероятностей с конечным математическим ожиданием μ и конечной дисперсией σ², то при достаточно большом n распределение выборочного среднего будет приблизительно нормальным (гауссовым) распределением с параметрами:
Математическое ожидание: μ_mean = μ Дисперсия: σ²_mean = σ² / n
Символьно: (X̄ - μ) / (σ / √n) → N(0, 1) при n → ∞
Ключевые моменты
Исходное распределение может быть ЛЮБЫМ
Это критически важно! Исходные данные могут иметь:
- Экспоненциальное распределение
- Равномерное распределение
- Биномиальное распределение
- Любое другое асимметричное распределение
Независимо от этого — распределение выборочных средних будет стремиться к нормальному.
Размер выборки имеет значение
Чем больше n, тем точнее приближение к нормальному распределению. Обычно:
- n ≥ 30 — приличное приближение для большинства распределений
- n ≥ 100 — хорошее приближение
- Для сильно асимметричных распределений может потребоваться n ≥ 1000
Практический пример
Представим популяцию с экспоненциальным распределением (очень асимметричное):
import numpy as np
import matplotlib.pyplot as plt
# 1. Генерируем выборку из экспоненциального распределения
np.random.seed(42)
population = np.random.exponential(scale=2, size=100000)
# Визуализируем исходное распределение
plt.figure(figsize=(12, 4))
plt.subplot(1, 3, 1)
plt.hist(population, bins=50, edgecolor='black')
plt.title('Исходное распределение (экспоненциальное)')
plt.xlabel('Значение')
plt.ylabel('Частота')
# 2. Берём множество выборок и вычисляем их средние
sample_size = 30
num_samples = 10000
sample_means = []
for _ in range(num_samples):
sample = np.random.choice(population, size=sample_size, replace=True)
sample_means.append(np.mean(sample))
# Визуализируем распределение выборочных средних
plt.subplot(1, 3, 2)
plt.hist(sample_means, bins=50, edgecolor='black', density=True)
plt.title('Распределение выборочных средних\n(n=30)')
plt.xlabel('Среднее значение')
plt.ylabel('Плотность')
# Добавим теоретическое нормальное распределение
from scipy import stats
mu = np.mean(population)
sigma = np.std(population) / np.sqrt(sample_size)
x = np.linspace(np.min(sample_means), np.max(sample_means), 100)
y = stats.norm.pdf(x, mu, sigma)
plt.plot(x, y, 'r-', linewidth=2, label='N(μ, σ²/n)')
plt.legend()
# Проверяем нормальность
plt.subplot(1, 3, 3)
stats.probplot(sample_means, dist='norm', plot=plt)
plt.title('Q-Q plot (проверка нормальности)')
plt.tight_layout()
plt.show()
print(f'Среднее выборочных средних: {np.mean(sample_means):.3f}')
print(f'Стандартное отклонение: {np.std(sample_means):.3f}')
print(f'Теоретическое σ/√n: {sigma:.3f}')
Результат: несмотря на то, что исходное распределение экспоненциальное, распределение выборочных средних становится нормальным!
Почему это важно?
Доверительные интервалы: благодаря CLT мы можем строить доверительные интервалы для среднего:
CI = X̄ ± z_α/2 * (σ / √n)
Это работает независимо от исходного распределения.
Гипотезотестирование: множество статистических тестов (t-test, ANOVA) основаны на предположении нормальности распределения выборочных средних, а не исходных данных.
Машинное обучение: многие алгоритмы (линейная регрессия, логистическая регрессия) работают лучше, когда признаки нормально распределены.
Условия применимости
- Независимость: наблюдения должны быть независимыми
- Конечная дисперсия: исходное распределение должно иметь конечную дисперсию
- Размер выборки: n должна быть достаточно большой
- Идентичное распределение: все наблюдения из одного распределения
Обобщения CLT
Многомерная CLT: применяется к векторам
Линдберг-Феллер CLT: более общий случай, когда требования не полностью выполнены
Свойство репликации: если X имеет распределение с дисперсией σ², то сумма n независимых копий имеет дисперсию nσ²
Практическое применение в анализе данных
- A/B тестирование: оценка значимости различий между группами
- Регрессионный анализ: стандартные ошибки коэффициентов
- Прогнозирование: доверительные интервалы предсказаний
- Контроль качества: мониторинг процессов
Центральная предельная теорема — это "волшебство" статистики, позволяющее нам делать выводы о населении из выборок, независимо от исходного распределения данных.