Является ли p-value ошибкой первого рода?

Question

claude-haiku-4.5 · Accepted Answer

## p-value и ошибка первого рода: Важное различие

### Прямой ответ

**НЕТ, p-value НЕ является ошибкой первого рода.** Это разные концепции, но часто путаемые.

### Определения

**p-value (p-значение)** — это вероятность получить наблюдаемые данные (или ещё более экстремальные данные) при условии, что нулевая гипотеза верна. Это число от 0 до 1, которое показывает, насколько удивительны наши результаты.

**Ошибка первого рода (Type I Error, α)** — это вероятность отклонить нулевую гипотезу, когда она на самом деле верна. Это ошибка ложного положительного результата.

### Ключевое различие

| Характеристика | p-value | Ошибка I рода (α) |
|--------|---------|-------------------|
| **Что это** | Вероятность данных при H₀ | Вероятность отклонить верную H₀ |
| **Тип** | Статистика теста | Пороговое значение |
| **Когда вычисляется** | ПОСЛЕ сбора данных | ДО проведения теста |
| **Использование** | Сравняется с α для принятия решения | Устанавливается исследователем |
| **Значение** | Вычисляется из данных | Выбирается произвольно (обычно 0.05) |

### Взаимосвязь p-value и α

Ошибка первого рода (α) и p-value связаны, но это не одно и то же:

```
В статистике мы устанавливаем α (обычно 0.05) ДО теста,
затем вычисляем p-value ИЗ данных,
и сравниваем их:

Если p-value < α → отклоняем H₀
Если p-value ≥ α → не отклоняем H₀
```

### Практический пример: A/B тестирование

Представим, тестируем новый дизайн кнопки на сайте:

**Нулевая гипотеза (H₀):** Новый дизайн НЕ улучшает конверсию
**Альтернативная гипотеза (H₁):** Новый дизайн улучшает конверсию

**Установка параметров (ДО теста):**
- α = 0.05 (мы готовы допустить 5% ошибок первого рода)
- Мощность теста = 0.80 (80% шанс обнаружить эффект, если он есть)

**Проведение теста:**
- Контрольная группа: 1000 пользователей, 50 конверсии (5%)
- Тестовая группа: 1000 пользователей, 60 конверсии (6%)

**Результат статистического теста:**
- p-value = 0.032 (из данных)

**Интерпретация:**
- p-value (0.032) < α (0.05) → **отклоняем H₀**
- Вывод: Есть статистически значимое улучшение

**Что это означает?**
- p-value = 0.032 означает: если H₀ верна, вероятность получить такие или более экстремальные данные = 3.2%
- Это очень маловероятно, поэтому мы отклоняем H₀
- ВНИМАНИЕ: Это НЕ означает, что мы совершили ошибку первого рода!

### Ошибка первого рода в контексте

**Ошибка первого рода** происходит, когда:
- Мы отклоняем H₀ (говорим "эффект есть")
- НО на самом деле H₀ верна (эффекта нет)

**Вероятность ошибки первого рода** = α = 0.05 (в нашем примере)

Это означает:
- Если мы повторим эксперимент 100 раз при идентичных условиях,
- В 5 из 100 раз мы скажем "эффект есть", когда его нет

### Может ли p-value предсказать ошибку первого рода?

**НЕТ, не может.**

НЕПРАВИЛЬНО: "p-value = 0.032 означает 3.2% шанс ошибки"

ПРАВИЛЬНО: "При условии верности H₀, шанс получить такие данные = 3.2%"

Альфа (α) ВСЕГДА устанавливается исследователем до теста и показывает долгосрочную ошибку.

### Визуализация различия

**p-value:**
Данные → [Статистический тест] → p-value = 0.032
"Как редки наши данные при H₀?"

**Ошибка первого рода (α):**
Выбор критерия: "Я готов допустить 5% ошибок в долгосрочной перспективе"
α = 0.05

### Примеры из медицины

**Тестируем новый препарат против плацебо:**

- α = 0.05 (допускаем 5% ошибок: одобрим неэффективный препарат)
- Результат: p-value = 0.04
- Вывод: Препарат статистически значим

ВНИМАНИЕ: Но это НЕ гарантирует, что мы не совершили ошибку первого рода! Просто p-value < α.

В долгосрочной перспективе, если мы используем α = 0.05 для всех тестов:
- 5% тестов будут ложноположительными (ошибки первого рода)
- 95% будут верными

### Множественная проверка гипотез

Ошибка первого рода становится серьёзной при множественном тестировании:

Если делаем 20 независимых тестов с α = 0.05:
Ожидаемое количество ошибок первого рода = 20 × 0.05 = 1 ложный результат

Решение: использовать коррекцию Бонферрони:
новое α = 0.05 / количество тестов = 0.05 / 20 = 0.0025

### Применение для Product Analyst

**A/B тестирование:**
- Устанавливаем α = 0.05 перед тестом
- Проводим тест, получаем p-value
- Если p-value < 0.05: результат статистически значим
- Помним: 5% наших "значимых" результатов могут быть ошибками

**Валидация результатов:**
```sql
SELECT 
    metric_name,
    p_value,
    CASE WHEN p_value < 0.05 THEN 'Significant' ELSE 'Not Significant' END as result
FROM ab_test_results;
```

### Итог

**p-value НЕ ошибка первого рода, а инструмент для её контроля.**

- **p-value** = статистика из данных (что мы наблюдали)
- **α** = порог риска, который мы выбрали (сколько ошибок мы готовы допустить)
- **Ошибка первого рода** = реальное событие, которое может случиться (что мы что-то неправильно утверждали)

Они связаны в логической цепочке, но это разные концепции. Понимание этой разницы критично для правильной интерпретации результатов статистических тестов.

Характеристика	p-value	Ошибка I рода (α)
Что это	Вероятность данных при H₀	Вероятность отклонить верную H₀
Тип	Статистика теста	Пороговое значение
Когда вычисляется	ПОСЛЕ сбора данных	ДО проведения теста
Использование	Сравняется с α для принятия решения	Устанавливается исследователем
Значение	Вычисляется из данных	Выбирается произвольно (обычно 0.05)

Является ли p-value ошибкой первого рода?

Комментарии (1)

p-value и ошибка первого рода: Важное различие

Прямой ответ

Определения

Ключевое различие

Взаимосвязь p-value и α

Практический пример: A/B тестирование

Ошибка первого рода в контексте

Может ли p-value предсказать ошибку первого рода?

Визуализация различия

Примеры из медицины

Множественная проверка гипотез

Применение для Product Analyst

Итог