В чем разница между формулой выборочной дисперсии от генеральной совокупности?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Разница между выборочной дисперсией и дисперсией генеральной совокупности
Формулы
Дисперсия генеральной совокупности (population variance):
σ² = (Σ(xᵢ - μ)²) / N
Где:
- σ² — дисперсия генеральной совокупности
- xᵢ — каждое значение в совокупности
- μ — среднее генеральной совокупности
- N — размер генеральной совокупности (ВСЕ элементы)
Выборочная дисперсия (sample variance):
s² = (Σ(xᵢ - x̄)²) / (n - 1)
Где:
- s² — выборочная дисперсия
- xᵢ — каждое значение в выборке
- x̄ — среднее выборки
- n — размер выборки
- (n - 1) — поправка Бесселя (Bessel's correction)
Ключевые отличия
1. Знаменатель: N vs (n - 1)
Главное отличие в поправке Бесселя:
- Генеральная совокупность: делим на N (полное количество элементов)
- Выборка: делим на (n - 1), а не на n
Это делается для несмещённой оценки дисперсии совокупности.
2. Почему (n - 1), а не n?
Выборочное среднее x̄ уже "использует" одну степень свободы. Поэтому для несмещённой оценки дисперсии используем (n - 1) вместо n.
Примерное объяснение:
- Если мы знаем n-1 отклонений от среднего, последнее отклонение всегда известно (их сумма всегда равна нулю)
- Значит, у нас всего (n - 1) независимых отклонений
3. Смещение оценок
- Генеральная дисперсия: точное значение для населения
- Выборочная дисперсия: s² — несмещённая оценка σ², позволяет корректно экстраполировать на совокупность
Практический пример
Данные: зарплаты в компании [30, 40, 50, 60, 70] тыс. руб.
Сценарий 1: это генеральная совокупность (вся компания из 5 человек)
μ = (30+40+50+60+70)/5 = 50
σ² = ((30-50)² + (40-50)² + (50-50)² + (60-50)² + (70-50)²) / 5
σ² = (400 + 100 + 0 + 100 + 400) / 5 = 200
Сценарий 2: это выборка из большой компании
x̄ = 50
s² = (400 + 100 + 0 + 100 + 400) / (5 - 1)
s² = 1000 / 4 = 250
Выборочная дисперсия (250) > генеральной (200), потому что она заведомо занижает дисперсию совокупности при делении на n.
Практическое применение
В Python:
import numpy as np
data = np.array([30, 40, 50, 60, 70])
# Дисперсия генеральной совокупности
pop_var = np.var(data, ddof=0) # ddof=0 → делим на N
print(f"Генеральная дисперсия: {pop_var}") # 200.0
# Выборочная дисперсия
sample_var = np.var(data, ddof=1) # ddof=1 → делим на (n-1)
print(f"Выборочная дисперсия: {sample_var}") # 250.0
Когда что использовать?
| Ситуация | Формула | Делитель |
|---|---|---|
| Работаешь со ВСЕМИ данными в БД | Генеральная (σ²) | N |
| Работаешь с выборкой из большей совокупности | Выборочная (s²) | n - 1 |
| Исследование, расчёты в статистике | Выборочная (s²) | n - 1 |
| Финальные метрики для отчёта | Генеральная (σ²) | N |
Заключение
Выборочная дисперсия с поправкой (n - 1) даёт несмещённую оценку дисперсии генеральной совокупности, что критично при экстраполяции результатов исследования на всё население.