← Назад к вопросам

В чём разница между двусторонней и односторонней гипотезой?

2.0 Middle🔥 191 комментариев
#A/B-тестирование#Статистика и теория вероятностей#Статистические критерии и тесты

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI23 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Разница между выборочной дисперсией и дисперсией генеральной совокупности

Это фундаментальный вопрос статистики, который часто путают. Разница заключается в том, какую совокупность мы анализируем и как рассчитываем дисперсию.

Определения

Генеральная совокупность (Population)

  • Все единицы, которые нас интересуют
  • Полный набор данных
  • Обозначается греческой буквой (σ²)

Выборка (Sample)

  • Подмножество генеральной совокупности
  • Часто единственное, что мы можем измерить
  • Обозначается латинской буквой (s²)

Формулы расчёта

Дисперсия генеральной совокупности:

σ² = Σ(xi - μ)² / N

Где:

  • xi — каждое значение
  • μ — математическое ожидание генеральной совокупности
  • N — размер генеральной совокупности

Выборочная дисперсия (несмещённая оценка):

s² = Σ(xi - x̄)² / (n - 1)

Где:

  • xi — каждое значение в выборке
  • x̄ — выборочное среднее
  • n — размер выборки
  • (n - 1) — критическое отличие!

Главное отличие: n vs (n-1)

Почему именно (n - 1)?

Это называется Bessel's correction или поправка Бесселя.

Причина:

  1. Когда мы используем выборочное среднее x̄ вместо истинного среднего μ, мы немного «подгоняем» данные
  2. Выборочное среднее всегда ближе к данным, чем истинное среднее
  3. Это приводит к недооценке дисперсии
  4. Делением на (n - 1) вместо n мы получаем несмещённую оценку

Математический пример

Выборка: [2, 4, 6, 8, 10]

Среднее: x̄ = (2+4+6+8+10)/5 = 30/5 = 6

Суммы квадратов отклонений:

  • (2-6)² = 16
  • (4-6)² = 4
  • (6-6)² = 0
  • (8-6)² = 4
  • (10-6)² = 16
  • Сумма = 40

Если это генеральная совокупность:

σ² = 40 / 5 = 8
σ = √8 ≈ 2.83

Если это выборка (несмещённая оценка):

s² = 40 / (5-1) = 40 / 4 = 10
s = √10 ≈ 3.16

Видно, что s² > σ²!

Смещение и несмещённость

Смещённая оценка (делением на n):

variance_biased = sum((x - mean(x))**2) / len(x)
# E[s²] ≠ σ² (смещено)

Несмещённая оценка (делением на n-1):

variance_unbiased = sum((x - mean(x))**2) / (len(x) - 1)
# E[s²] = σ² (несмещено!)

Практический пример в Python

import numpy as np
import pandas as pd

# Выборка из 100 наблюдений
data = np.random.normal(loc=100, scale=15, size=100)

# Встроенные функции в pandas
variance_ddof0 = data.var(ddof=0)  # Делит на n (для генеральной совокупности)
variance_ddof1 = data.var(ddof=1)  # Делит на n-1 (для выборки)

print(f'Дисперсия (n-1): {variance_ddof1:.2f}')
print(f'Дисперсия (n): {variance_ddof0:.2f}')
print(f'Разница: {variance_ddof1 - variance_ddof0:.2f}')

# В numpy
var_population = np.var(data)        # По умолчанию ddof=0
var_sample = np.var(data, ddof=1)    # Исправленная для выборки

print(f'NumPy - генеральная совокупность: {var_population:.2f}')
print(f'NumPy - выборка: {var_sample:.2f}')

Когда использовать что?

Используй σ² (делением на N):

  • Если у тебя есть ПОЛНЫЕ данные (генеральная совокупность)
  • Например: все ваши клиенты (не выборка клиентов)
  • Описательная статистика для всех данных

Используй s² (делением на n-1):

  • Если это выборка из большей совокупности
  • Построение доверительных интервалов
  • Проверка гипотез
  • Оценка параметров генеральной совокупности
  • В большинстве статистических тестов (t-test, ANOVA)

Почему статистики выбирают n-1?

Свойство несмещённости:

E[s²] = σ² (в среднем попадаем в цель)
vs
E[(n-1)/n * s²] = σ² (для смещённой оценки)

Мы хотим, чтобы наша оценка в среднем равнялась истинному значению. Деление на (n-1) даёт эту гарантию.

Практическое значение

При малых выборках разница заметна:

  • n = 5: разница в 25% (5/4 = 1.25)
  • n = 10: разница в 11% (10/9 ≈ 1.11)
  • n = 100: разница в 1% (100/99 ≈ 1.01)

При больших выборках разница исчезает:

  • При n → ∞, (n-1)/n → 1, поэтому формулы становятся эквивалентны

Ключевые выводы

ПараметрГенеральная совокупностьВыборка
Формулаσ² = Σ(xi - μ)² / Ns² = Σ(xi - x̄)² / (n-1)
Обозначениеσ²
Когда использоватьПолные данныеДанные из выборки
СмещённостьN/AНесмещённая оценка
Ожидаемое значениеσ²σ² (тоже!)

Золотое правило: Если ты работаешь с реальными данными (которые почти всегда выборки), используй (n-1)!

В чём разница между двусторонней и односторонней гипотезой? | PrepBro