В чём разница между двусторонней и односторонней гипотезой?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Разница между выборочной дисперсией и дисперсией генеральной совокупности
Это фундаментальный вопрос статистики, который часто путают. Разница заключается в том, какую совокупность мы анализируем и как рассчитываем дисперсию.
Определения
Генеральная совокупность (Population)
- Все единицы, которые нас интересуют
- Полный набор данных
- Обозначается греческой буквой (σ²)
Выборка (Sample)
- Подмножество генеральной совокупности
- Часто единственное, что мы можем измерить
- Обозначается латинской буквой (s²)
Формулы расчёта
Дисперсия генеральной совокупности:
σ² = Σ(xi - μ)² / N
Где:
- xi — каждое значение
- μ — математическое ожидание генеральной совокупности
- N — размер генеральной совокупности
Выборочная дисперсия (несмещённая оценка):
s² = Σ(xi - x̄)² / (n - 1)
Где:
- xi — каждое значение в выборке
- x̄ — выборочное среднее
- n — размер выборки
- (n - 1) — критическое отличие!
Главное отличие: n vs (n-1)
Почему именно (n - 1)?
Это называется Bessel's correction или поправка Бесселя.
Причина:
- Когда мы используем выборочное среднее x̄ вместо истинного среднего μ, мы немного «подгоняем» данные
- Выборочное среднее всегда ближе к данным, чем истинное среднее
- Это приводит к недооценке дисперсии
- Делением на (n - 1) вместо n мы получаем несмещённую оценку
Математический пример
Выборка: [2, 4, 6, 8, 10]
Среднее: x̄ = (2+4+6+8+10)/5 = 30/5 = 6
Суммы квадратов отклонений:
- (2-6)² = 16
- (4-6)² = 4
- (6-6)² = 0
- (8-6)² = 4
- (10-6)² = 16
- Сумма = 40
Если это генеральная совокупность:
σ² = 40 / 5 = 8
σ = √8 ≈ 2.83
Если это выборка (несмещённая оценка):
s² = 40 / (5-1) = 40 / 4 = 10
s = √10 ≈ 3.16
Видно, что s² > σ²!
Смещение и несмещённость
Смещённая оценка (делением на n):
variance_biased = sum((x - mean(x))**2) / len(x)
# E[s²] ≠ σ² (смещено)
Несмещённая оценка (делением на n-1):
variance_unbiased = sum((x - mean(x))**2) / (len(x) - 1)
# E[s²] = σ² (несмещено!)
Практический пример в Python
import numpy as np
import pandas as pd
# Выборка из 100 наблюдений
data = np.random.normal(loc=100, scale=15, size=100)
# Встроенные функции в pandas
variance_ddof0 = data.var(ddof=0) # Делит на n (для генеральной совокупности)
variance_ddof1 = data.var(ddof=1) # Делит на n-1 (для выборки)
print(f'Дисперсия (n-1): {variance_ddof1:.2f}')
print(f'Дисперсия (n): {variance_ddof0:.2f}')
print(f'Разница: {variance_ddof1 - variance_ddof0:.2f}')
# В numpy
var_population = np.var(data) # По умолчанию ddof=0
var_sample = np.var(data, ddof=1) # Исправленная для выборки
print(f'NumPy - генеральная совокупность: {var_population:.2f}')
print(f'NumPy - выборка: {var_sample:.2f}')
Когда использовать что?
Используй σ² (делением на N):
- Если у тебя есть ПОЛНЫЕ данные (генеральная совокупность)
- Например: все ваши клиенты (не выборка клиентов)
- Описательная статистика для всех данных
Используй s² (делением на n-1):
- Если это выборка из большей совокупности
- Построение доверительных интервалов
- Проверка гипотез
- Оценка параметров генеральной совокупности
- В большинстве статистических тестов (t-test, ANOVA)
Почему статистики выбирают n-1?
Свойство несмещённости:
E[s²] = σ² (в среднем попадаем в цель)
vs
E[(n-1)/n * s²] = σ² (для смещённой оценки)
Мы хотим, чтобы наша оценка в среднем равнялась истинному значению. Деление на (n-1) даёт эту гарантию.
Практическое значение
При малых выборках разница заметна:
- n = 5: разница в 25% (5/4 = 1.25)
- n = 10: разница в 11% (10/9 ≈ 1.11)
- n = 100: разница в 1% (100/99 ≈ 1.01)
При больших выборках разница исчезает:
- При n → ∞, (n-1)/n → 1, поэтому формулы становятся эквивалентны
Ключевые выводы
| Параметр | Генеральная совокупность | Выборка |
|---|---|---|
| Формула | σ² = Σ(xi - μ)² / N | s² = Σ(xi - x̄)² / (n-1) |
| Обозначение | σ² | s² |
| Когда использовать | Полные данные | Данные из выборки |
| Смещённость | N/A | Несмещённая оценка |
| Ожидаемое значение | σ² | σ² (тоже!) |
Золотое правило: Если ты работаешь с реальными данными (которые почти всегда выборки), используй (n-1)!