В чем разница между формулой выборочной дисперсии от генеральной совокупности?

Question

claude-haiku-4.5 · Accepted Answer

## Разница между выборочной дисперсией и дисперсией генеральной совокупности

### Формулы

**Дисперсия генеральной совокупности (population variance):**

```
σ² = (Σ(xᵢ - μ)²) / N
```

Где:
- **σ²** — дисперсия генеральной совокупности
- **xᵢ** — каждое значение в совокупности
- **μ** — среднее генеральной совокупности
- **N** — размер генеральной совокупности (ВСЕ элементы)

**Выборочная дисперсия (sample variance):**

```
s² = (Σ(xᵢ - x̄)²) / (n - 1)
```

Где:
- **s²** — выборочная дисперсия
- **xᵢ** — каждое значение в выборке
- **x̄** — среднее выборки
- **n** — размер выборки
- **(n - 1)** — поправка Бесселя (Bessel's correction)

### Ключевые отличия

**1. Знаменатель: N vs (n - 1)**

Главное отличие в поправке Бесселя:

- Генеральная совокупность: делим на **N** (полное количество элементов)
- Выборка: делим на **(n - 1)**, а не на **n**

Это делается для **несмещённой оценки** дисперсии совокупности.

**2. Почему (n - 1), а не n?**

Выборочное среднее x̄ уже "использует" одну степень свободы. Поэтому для несмещённой оценки дисперсии используем (n - 1) вместо n.

Примерное объяснение:
- Если мы знаем n-1 отклонений от среднего, последнее отклонение **всегда** известно (их сумма всегда равна нулю)
- Значит, у нас всего (n - 1) независимых отклонений

**3. Смещение оценок**

- **Генеральная дисперсия**: точное значение для населения
- **Выборочная дисперсия**: s² — несмещённая оценка σ², позволяет корректно экстраполировать на совокупность

### Практический пример

Данные: зарплаты в компании [30, 40, 50, 60, 70] тыс. руб.

**Сценарий 1: это генеральная совокупность (вся компания из 5 человек)**

```
μ = (30+40+50+60+70)/5 = 50
σ² = ((30-50)² + (40-50)² + (50-50)² + (60-50)² + (70-50)²) / 5
σ² = (400 + 100 + 0 + 100 + 400) / 5 = 200
```

**Сценарий 2: это выборка из большой компании**

```
x̄ = 50
s² = (400 + 100 + 0 + 100 + 400) / (5 - 1)
s² = 1000 / 4 = 250
```

Выборочная дисперсия (250) > генеральной (200), потому что она **заведомо занижает** дисперсию совокупности при делении на n.

### Практическое применение

**В Python:**

```python
import numpy as np

data = np.array([30, 40, 50, 60, 70])

# Дисперсия генеральной совокупности
pop_var = np.var(data, ddof=0)  # ddof=0 → делим на N
print(f"Генеральная дисперсия: {pop_var}")  # 200.0

# Выборочная дисперсия
sample_var = np.var(data, ddof=1)  # ddof=1 → делим на (n-1)
print(f"Выборочная дисперсия: {sample_var}")  # 250.0
```

### Когда что использовать?

| Ситуация | Формула | Делитель |
|----------|---------|----------|
| Работаешь со ВСЕМИ данными в БД | Генеральная (σ²) | N |
| Работаешь с выборкой из большей совокупности | Выборочная (s²) | n - 1 |
| Исследование, расчёты в статистике | Выборочная (s²) | n - 1 |
| Финальные метрики для отчёта | Генеральная (σ²) | N |

### Заключение

Выборочная дисперсия с поправкой (n - 1) даёт **несмещённую оценку** дисперсии генеральной совокупности, что критично при экстраполяции результатов исследования на всё население.

Ситуация	Формула	Делитель
Работаешь со ВСЕМИ данными в БД	Генеральная (σ²)	N
Работаешь с выборкой из большей совокупности	Выборочная (s²)	n - 1
Исследование, расчёты в статистике	Выборочная (s²)	n - 1
Финальные метрики для отчёта	Генеральная (σ²)	N

В чем разница между формулой выборочной дисперсии от генеральной совокупности?

Комментарии (1)

Разница между выборочной дисперсией и дисперсией генеральной совокупности

Формулы

Ключевые отличия

Практический пример

Практическое применение

Когда что использовать?

Заключение

Похожие вопросы