← Назад к вопросам

Как работает идея статистического вывода?

2.2 Middle🔥 251 комментариев
#Статистика и теория вероятностей#Статистические критерии и тесты

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI26 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Статистический вывод: основы и применение

Статистический вывод — это методология, которая позволяет на основе выборки данных делать заключения о генеральной совокупности. Это фундаментальный инструмент для любого Data Analyst, поскольку мы редко можем собрать и проанализировать все возможные данные.

Основная идея

Представьте, что нужно узнать среднюю зарплату всех IT-специалистов в России. Невозможно опросить каждого, поэтому берём выборку из 1000 человек и на её основе оцениваем параметры генеральной совокупности.

Ключевые компоненты:

  • Генеральная совокупность — все объекты интереса (все IT-специалисты)
  • Выборка — часть совокупности для анализа (1000 человек)
  • Параметр — характеристика совокупности (средняя зарплата μ)
  • Статистика — характеристика выборки (средняя зарплата в выборке x̄)

Два основных подхода

1. Частотническое объяснение (Frequentist)

Предполагает, что параметр — неизвестная константа, выборка — случайная.

import numpy as np
from scipy import stats

# Выборка зарплат (тыс. руб)
sample = np.array([80, 95, 110, 75, 120, 105, 90, 115, 100, 85])

# Оценка среднего
mean_estimate = np.mean(sample)
print(f"Средняя зарплата: {mean_estimate:.2f} тыс.")

# Стандартная ошибка
se = stats.sem(sample)
print(f"Стандартная ошибка: {se:.2f}")

# 95% доверительный интервал
ci = stats.t.interval(0.95, len(sample)-1, loc=mean_estimate, scale=se)
print(f"95% интервал: [{ci[0]:.2f}, {ci[1]:.2f}]")

Интерпретация: Если повторять это исследование много раз, в 95% случаев истинная средняя зарплата будет в диапазоне [86.5, 110.5].

2. Байесовский подход (Bayesian)

Предполагает, что параметр имеет распределение вероятности (a priori), которое обновляется данными.

from scipy.stats import norm

# Априорное убеждение: средняя зарплата ~100, с σ=20
prior_mean, prior_std = 100, 20

# Данные выборки: средняя 100, SE=8
sample_mean, sample_se = 100, 8

# Апостериорное распределение
posterior_mean = (prior_mean/prior_std**2 + sample_mean/sample_se**2) / \
                 (1/prior_std**2 + 1/sample_se**2)
posterior_var = 1 / (1/prior_std**2 + 1/sample_se**2)

print(f"Апостериорная средняя: {posterior_mean:.2f}")
print(f"Апостериорное std: {np.sqrt(posterior_var):.2f}")

Гипотезы и тестирование

Вторая часть статистического вывода — проверка гипотез. Формулируем две гипотезы:

  • H₀ (нулевая) — нет эффекта (средняя зарплата = 100 тыс.)
  • H₁ (альтернативная) — есть эффект (средняя зарплата ≠ 100 тыс.)
from scipy.stats import ttest_1samp

sample = np.array([80, 95, 110, 75, 120, 105, 90, 115, 100, 85])
null_hypothesis_mean = 100

t_statistic, p_value = ttest_1samp(sample, null_hypothesis_mean)

print(f"t-статистика: {t_statistic:.4f}")
print(f"p-значение: {p_value:.4f}")

if p_value < 0.05:
    print("Отвергаем H₀: средняя статистически значима отличается от 100")
else:
    print("Не отвергаем H₀: нет статистических доказательств разницы")

Применение в работе Data Analyst

  1. A/B тестирование — сравнение конверсии двух версий сайта
  2. Оценка метрик — определение среднего значения метрики с доверительными интервалами
  3. Аномалии — выявление выбросов за пределами нормального распределения
  4. Корреляция — определение статистической значимости связи

Ошибки первого и второго рода

РеальностьH₀ вернаH₀ неверна
Не отвергли H₀✓ (1-α)Ошибка II типа (β)
Отвергли H₀Ошибка I типа (α)✓ (1-β) мощность

α = 0.05 означает, что в 5% случаев мы отвергнем верную H₀ (ложноположительный результат).

Условие репрезентативности

Для корректного вывода выборка должна быть случайной. Если это не так (например, опрос только москвичей о зарплате России), вывод будет смещённым.

Для Data Analyst критично:

  • Проверять размер выборки
  • Учитывать смещения
  • Использовать доверительные интервалы
  • Помнить, что статистическая значимость ≠ практическая значимость