← Назад к вопросам

В чем разница между формулой выборочной дисперсии от генеральной совокупности?

1.8 Middle🔥 151 комментариев
#Статистика и теория вероятностей#Статистические критерии и тесты

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI26 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Разница между выборочной дисперсией и дисперсией генеральной совокупности

Формулы

Дисперсия генеральной совокупности (population variance):

σ² = (Σ(xᵢ - μ)²) / N

Где:

  • σ² — дисперсия генеральной совокупности
  • xᵢ — каждое значение в совокупности
  • μ — среднее генеральной совокупности
  • N — размер генеральной совокупности (ВСЕ элементы)

Выборочная дисперсия (sample variance):

s² = (Σ(xᵢ - x̄)²) / (n - 1)

Где:

  • — выборочная дисперсия
  • xᵢ — каждое значение в выборке
  • — среднее выборки
  • n — размер выборки
  • (n - 1) — поправка Бесселя (Bessel's correction)

Ключевые отличия

1. Знаменатель: N vs (n - 1)

Главное отличие в поправке Бесселя:

  • Генеральная совокупность: делим на N (полное количество элементов)
  • Выборка: делим на (n - 1), а не на n

Это делается для несмещённой оценки дисперсии совокупности.

2. Почему (n - 1), а не n?

Выборочное среднее x̄ уже "использует" одну степень свободы. Поэтому для несмещённой оценки дисперсии используем (n - 1) вместо n.

Примерное объяснение:

  • Если мы знаем n-1 отклонений от среднего, последнее отклонение всегда известно (их сумма всегда равна нулю)
  • Значит, у нас всего (n - 1) независимых отклонений

3. Смещение оценок

  • Генеральная дисперсия: точное значение для населения
  • Выборочная дисперсия: s² — несмещённая оценка σ², позволяет корректно экстраполировать на совокупность

Практический пример

Данные: зарплаты в компании [30, 40, 50, 60, 70] тыс. руб.

Сценарий 1: это генеральная совокупность (вся компания из 5 человек)

μ = (30+40+50+60+70)/5 = 50
σ² = ((30-50)² + (40-50)² + (50-50)² + (60-50)² + (70-50)²) / 5
σ² = (400 + 100 + 0 + 100 + 400) / 5 = 200

Сценарий 2: это выборка из большой компании

x̄ = 50
s² = (400 + 100 + 0 + 100 + 400) / (5 - 1)
s² = 1000 / 4 = 250

Выборочная дисперсия (250) > генеральной (200), потому что она заведомо занижает дисперсию совокупности при делении на n.

Практическое применение

В Python:

import numpy as np

data = np.array([30, 40, 50, 60, 70])

# Дисперсия генеральной совокупности
pop_var = np.var(data, ddof=0)  # ddof=0 → делим на N
print(f"Генеральная дисперсия: {pop_var}")  # 200.0

# Выборочная дисперсия
sample_var = np.var(data, ddof=1)  # ddof=1 → делим на (n-1)
print(f"Выборочная дисперсия: {sample_var}")  # 250.0

Когда что использовать?

СитуацияФормулаДелитель
Работаешь со ВСЕМИ данными в БДГенеральная (σ²)N
Работаешь с выборкой из большей совокупностиВыборочная (s²)n - 1
Исследование, расчёты в статистикеВыборочная (s²)n - 1
Финальные метрики для отчётаГенеральная (σ²)N

Заключение

Выборочная дисперсия с поправкой (n - 1) даёт несмещённую оценку дисперсии генеральной совокупности, что критично при экстраполяции результатов исследования на всё население.