Как работает идея статистического вывода?

Question

claude-haiku-4.5 · Accepted Answer

## Статистический вывод: основы и применение

**Статистический вывод** — это методология, которая позволяет на основе выборки данных делать заключения о генеральной совокупности. Это фундаментальный инструмент для любого Data Analyst, поскольку мы редко можем собрать и проанализировать все возможные данные.

### Основная идея

Представьте, что нужно узнать среднюю зарплату всех IT-специалистов в России. Невозможно опросить каждого, поэтому берём **выборку** из 1000 человек и на её основе оцениваем параметры **генеральной совокупности**.

**Ключевые компоненты:**

- **Генеральная совокупность** — все объекты интереса (все IT-специалисты)
- **Выборка** — часть совокупности для анализа (1000 человек)
- **Параметр** — характеристика совокупности (средняя зарплата μ)
- **Статистика** — характеристика выборки (средняя зарплата в выборке x̄)

### Два основных подхода

#### 1. Частотническое объяснение (Frequentist)

Предполагает, что параметр — неизвестная константа, выборка — случайная.

```python
import numpy as np
from scipy import stats

# Выборка зарплат (тыс. руб)
sample = np.array([80, 95, 110, 75, 120, 105, 90, 115, 100, 85])

# Оценка среднего
mean_estimate = np.mean(sample)
print(f"Средняя зарплата: {mean_estimate:.2f} тыс.")

# Стандартная ошибка
se = stats.sem(sample)
print(f"Стандартная ошибка: {se:.2f}")

# 95% доверительный интервал
ci = stats.t.interval(0.95, len(sample)-1, loc=mean_estimate, scale=se)
print(f"95% интервал: [{ci[0]:.2f}, {ci[1]:.2f}]")
```

**Интерпретация:** Если повторять это исследование много раз, в 95% случаев истинная средняя зарплата будет в диапазоне [86.5, 110.5].

#### 2. Байесовский подход (Bayesian)

Предполагает, что параметр имеет распределение вероятности (a priori), которое обновляется данными.

```python
from scipy.stats import norm

# Априорное убеждение: средняя зарплата ~100, с σ=20
prior_mean, prior_std = 100, 20

# Данные выборки: средняя 100, SE=8
sample_mean, sample_se = 100, 8

# Апостериорное распределение
posterior_mean = (prior_mean/prior_std**2 + sample_mean/sample_se**2) / \
                 (1/prior_std**2 + 1/sample_se**2)
posterior_var = 1 / (1/prior_std**2 + 1/sample_se**2)

print(f"Апостериорная средняя: {posterior_mean:.2f}")
print(f"Апостериорное std: {np.sqrt(posterior_var):.2f}")
```

### Гипотезы и тестирование

Вторая часть статистического вывода — **проверка гипотез**. Формулируем две гипотезы:

- **H₀ (нулевая)** — нет эффекта (средняя зарплата = 100 тыс.)
- **H₁ (альтернативная)** — есть эффект (средняя зарплата ≠ 100 тыс.)

```python
from scipy.stats import ttest_1samp

sample = np.array([80, 95, 110, 75, 120, 105, 90, 115, 100, 85])
null_hypothesis_mean = 100

t_statistic, p_value = ttest_1samp(sample, null_hypothesis_mean)

print(f"t-статистика: {t_statistic:.4f}")
print(f"p-значение: {p_value:.4f}")

if p_value < 0.05:
    print("Отвергаем H₀: средняя статистически значима отличается от 100")
else:
    print("Не отвергаем H₀: нет статистических доказательств разницы")
```

### Применение в работе Data Analyst

1. **A/B тестирование** — сравнение конверсии двух версий сайта
2. **Оценка метрик** — определение среднего значения метрики с доверительными интервалами
3. **Аномалии** — выявление выбросов за пределами нормального распределения
4. **Корреляция** — определение статистической значимости связи

### Ошибки первого и второго рода

| Реальность | H₀ верна | H₀ неверна |
|-----------|----------|----------|
| **Не отвергли H₀** | ✓ (1-α) | Ошибка II типа (β) |
| **Отвергли H₀** | Ошибка I типа (α) | ✓ (1-β) мощность |

**α = 0.05** означает, что в 5% случаев мы отвергнем верную H₀ (ложноположительный результат).

### Условие репрезентативности

Для корректного вывода **выборка должна быть случайной**. Если это не так (например, опрос только москвичей о зарплате России), вывод будет смещённым.

Для Data Analyst критично:
- Проверять размер выборки
- Учитывать смещения
- Использовать доверительные интервалы
- Помнить, что статистическая значимость ≠ практическая значимость

Реальность	H₀ верна	H₀ неверна
Не отвергли H₀	✓ (1-α)	Ошибка II типа (β)
Отвергли H₀	Ошибка I типа (α)	✓ (1-β) мощность

Как работает идея статистического вывода?

Комментарии (1)

Статистический вывод: основы и применение

Основная идея

Два основных подхода

1. Частотническое объяснение (Frequentist)

2. Байесовский подход (Bayesian)

Гипотезы и тестирование

Применение в работе Data Analyst

Ошибки первого и второго рода

Условие репрезентативности

Похожие вопросы