Что такое статистическая мощность (statistical power)?

Question

claude-haiku-4.5 · Accepted Answer

## Статистическая мощность (Statistical Power)

**Статистическая мощность (power)** — это вероятность того, что тест **корректно отклонит нулевую гипотезу** (H0), когда она действительно ложна. Иначе: вероятность обнаружить эффект, если он существует.

## Определение через типы ошибок

В статистических тестах возможны 4 сценария:

```
                  H0 верна      H0 ложна
                  (эффекта нет) (эффект есть)
Отклоняем H0     Type I error  ✓ Correct
(α ошибка)       (ложный +)    Power!

Не отклоняем H0  ✓ Correct     Type II error
                              (β ошибка - ложный -)
```

**Power = 1 - β**

Где:
- **α (alpha)** — вероятность Type I ошибки (обычно 0.05)
- **β (beta)** — вероятность Type II ошибки
- **Power** — вероятность обнаружить истинный эффект (обычно 0.80 или 0.90)

## Практический пример

Представь A/B тест конверсии:

**Сценарий 1: Высокая мощность (Power = 0.9)**
- Если существует реальное увеличение конверсии на 5%
- Тест с вероятностью 90% это обнаружит

**Сценарий 2: Низкая мощность (Power = 0.6)**
- Если существует реальное увеличение на 5%
- Тест с вероятностью только 60% это обнаружит
- С вероятностью 40% вернёшь ошибочное заключение, что эффекта нет

## От чего зависит мощность?

### 1. Размер эффекта (Effect Size)
Чем больше разница, которую пытаешься обнаружить, тем выше мощность:

```python
# Маленький эффект - нужна большая выборка
effect_size = 0.1  # мощность ниже

# Большой эффект - нужна меньшая выборка
effect_size = 0.8  # мощность выше
```

### 2. Размер выборки (Sample Size)
Больше данных = выше мощность:

```python
from scipy.stats import ttest_ind_from_stats
import numpy as np

# При n=30: power = 0.55
# При n=100: power = 0.85
# При n=300: power = 0.99
```

### 3. Уровень значимости (α)
Чем ниже α (строже критерий), тем ниже мощность. Обычно α = 0.05:

```
α = 0.05  → higher power
α = 0.01  → lower power
```

### 4. Дисперсия (Variability)
Данные с меньшей дисперсией → выше мощность (более точные измерения).

## Расчёт мощности и размера выборки

```python
from scipy.stats import ttest_ind
from statsmodels.stats.power import ttest_power

# Рассчитаем мощность для t-теста
power = ttest_power(
    effect_size=0.5,      # Cohen's d
    nobs=100,             # размер выборки
    alpha=0.05,           # уровень значимости
    alternative='two-sided'
)
print(f"Power = {power:.2%}")  # Power = 90.05%

# Найдём требуемый размер выборки для power=0.9
from statsmodels.stats.power import tt_solve_power

required_n = tt_solve_power(
    effect_size=0.5,
    power=0.9,
    alpha=0.05,
    alternative='two-sided'
)
print(f"Required sample size: {required_n:.0f}")  # 176 наблюдений
```

## Стандартные рекомендации

| Power | Частотность | Примечание |
|-------|------------|----------|
| 0.80  | Стандарт   | Минимум для большинства исследований |
| 0.90  | Рекомендуется | Для высокостоящих экспериментов |
| 0.95  | Очень строго | Для критичных медицинских исследований |

## Реальный пример: A/B тестирование

```python
import math
from statsmodels.stats.power import ttest_power

# A/B тест конверсии
# Control: 10% конверсия
# Treatment: нужно обнаружить 12% конверсию (2 п.п. лучше)

effect_size = (0.12 - 0.10) / math.sqrt(0.10 * 0.90)
print(f"Effect size (Cohen's h): {effect_size:.3f}")

power = ttest_power(
    effect_size=effect_size,
    nobs=5000,
    alpha=0.05,
    alternative='two-sided'
)
print(f"Power with n=5000: {power:.2%}")

# Если power < 0.8, увеличиваем n
for n in [1000, 2000, 5000, 10000]:
    p = ttest_power(effect_size, nobs=n, alpha=0.05)
    print(f"n={n:5d} → power={p:.1%}")
```

## Типичная ошибка: "Недостаточно мощный тест"

```
Тест показал: p-value = 0.15 (не значимо)
❌ НЕВЕРНО: "Нет эффекта"
✅ ВЕРНО: "Не обнаружен эффект с текущей мощностью"
```

При низкой мощности эффект может существовать, но тест его не обнаружит (Type II ошибка).

## Ключевые выводы

- **Мощность = вероятность обнаружить эффект, если он есть**
- Стандарт: Power ≥ 0.80 (иногда 0.90)
- Зависит от: размера эффекта, размера выборки, α, дисперсии
- Перед экспериментом: рассчитай требуемый размер выборки
- Если p > 0.05 при низкой мощности: не делай вывод об отсутствии эффекта
- **Золотое правило:** высокая мощность + большая выборка = надёжные результаты

Power	Частотность	Примечание
0.80	Стандарт	Минимум для большинства исследований
0.90	Рекомендуется	Для высокостоящих экспериментов
0.95	Очень строго	Для критичных медицинских исследований

Что такое статистическая мощность (statistical power)?

Комментарии (1)

Статистическая мощность (Statistical Power)

Определение через типы ошибок

Практический пример

От чего зависит мощность?

1. Размер эффекта (Effect Size)

2. Размер выборки (Sample Size)

3. Уровень значимости (α)

4. Дисперсия (Variability)

Расчёт мощности и размера выборки

Стандартные рекомендации

Реальный пример: A/B тестирование

Типичная ошибка: "Недостаточно мощный тест"

Ключевые выводы