Что такое множественное тестирование и как с ним бороться?

Question

claude-haiku-4.5 · Accepted Answer

## Множественное тестирование: проблема и решения

**Множественное тестирование** (multiple testing / multiple comparisons) — это проблема, возникающая при одновременном проведении нескольких статистических тестов. При увеличении количества тестов вероятность получить ложноположительный результат (Type I error) по чистой случайности резко возрастает.

### Проблема: почему это критично

Представим, что мы проводим тесты гипотез с уровнем значимости α = 0.05:

```python
# Если провести 1 тест
P(false positive) = 0.05

# Если провести 20 независимых тестов
P(хотя бы один false positive) = 1 - (1 - 0.05)^20 ≈ 0.64

# Если провести 100 тестов
P(хотя бы один false positive) = 1 - (1 - 0.05)^100 ≈ 0.99
```

Это означает, что при 100 независимых тестах с α = 0.05 вероятность получить хотя бы один ложный положительный результат практически 100%!

### Практические примеры

**A/B тестирование:**
- Вы тестируете 20 различных метрик одновременно
- При α = 0.05, в среднем 1 метрика покажет "значимый результат" просто по случайности

**Поиск ассоциаций:**
- Вы ищете корреляции между 1000 генов и болезнью
- Без коррекции найдёте ~50 "значимых" ассоциаций, которые на самом деле случайны

### Методы борьбы

#### 1. Bonferroni Correction (Поправка Бонферрони)

Простейший метод: делим уровень значимости на количество тестов:

```python
alpha = 0.05
n_tests = 20
alpha_corrected = alpha / n_tests  # 0.0025

# Проводим каждый тест с уровнем значимости 0.0025 вместо 0.05
from scipy import stats

p_values = [0.001, 0.02, 0.15, ...]  # результаты тестов
significant = [p < alpha_corrected for p in p_values]
```

**Плюсы:** просто, консервативно (редко ошибается)
**Минусы:** очень строгий, может пропустить настоящие эффекты (много false negatives)

#### 2. False Discovery Rate (FDR) контроль

Контролирует долю ложных открытий среди всех положительных результатов:

```python
from statsmodels.stats.multitest import multipletests

p_values = [0.001, 0.02, 0.15, 0.5, 0.003, ...]

# Метод Benjamini-Hochberg (BH)
rejected, p_corrected, _, _ = multipletests(
    p_values, 
    alpha=0.05, 
    method=fdr_bh
)

print(f"Значимые результаты после FDR: {sum(rejected)}")
```

FDR = E[#false positives / #total positives]

Если FDR = 0.05, ожидаем, что в среднем 5% от "значимых" результатов — ложные.

**Плюсы:** менее консервативен, чем Bonferroni
**Минусы:** более либерален, требует больше данных

#### 3. Holm-Bonferroni Method

Улучшенная версия Bonferroni, менее консервативная:

```python
rejected, p_corrected, _, _ = multipletests(
    p_values, 
    alpha=0.05, 
    method=holm
)
```

Шаги:
1. Сортируем p-values от меньшего к большему
2. Тестируем первый с α / n, второй с α / (n-1), и т.д.

#### 4. Permutation Testing

Оченьуниверсальный метод, основан на перестановках:

```python
np.random.seed(42)
n_perms = 10000

# Вычисляем наблюдаемую статистику
observed_stat = compute_statistic(X, y)

# Генерируем перестановки
perm_stats = []
for _ in range(n_perms):
    y_shuffled = np.random.permutation(y)
    perm_stats.append(compute_statistic(X, y_shuffled))

# p-value - доля перестановок, где статистика >= наблюдаемой
p_value = (sum(1 for s in perm_stats if s >= observed_stat)) / n_perms
```

**Плюсы:** не требует нормальности распределения, автоматически учитывает множественность
**Минусы:** вычислительно дорого

#### 5. Bayesian Approach

Используем байесовский фреймворк с априорными вероятностями:

```python
# Если предполагаем, что большинство тестов должны быть незначимы
# Используем более строгие априоры
from scipy.stats import beta

# Prior: ожидаем 95% тестов без эффекта
prior_effect = 0.05
```

### Сравнение методов

| Метод | Консервативность | Мощность | Вычисления |
|-------|---|---|---|
| Bonferroni | Очень строгий | Низкая | Быстро |
| Holm | Строгий | Средняя | Быстро |
| FDR (BH) | Либеральный | Высокая | Быстро |
| Permutation | Средний | Высокая | Медленно |
| Bayesian | Гибкий | Высокая | Медленно |

### Практические рекомендации

1. **A/B тестирование:** используй FDR (Benjamini-Hochberg)
2. **Genomics/большие данные:** используй FDR
3. **Медицина/клинические исследования:** используй Bonferroni или Holm
4. **Исследовательские анализы:** используй permutation testing для валидации
5. **Всегда планируй тесты заранее** — избегай p-hacking (множественных проверок гипотез)

### Ключевой вывод

Выбор метода коррекции зависит от компромисса между риском ложноположительных и ложноотрицательных результатов. В большинстве практических задач FDR является хорошей серединой.

Метод	Консервативность	Мощность	Вычисления
Bonferroni	Очень строгий	Низкая	Быстро
Holm	Строгий	Средняя	Быстро
FDR (BH)	Либеральный	Высокая	Быстро
Permutation	Средний	Высокая	Медленно
Bayesian	Гибкий	Высокая	Медленно

Что такое множественное тестирование и как с ним бороться?

Комментарии (1)

Множественное тестирование: проблема и решения

Проблема: почему это критично

Практические примеры

Методы борьбы

1. Bonferroni Correction (Поправка Бонферрони)

2. False Discovery Rate (FDR) контроль

3. Holm-Bonferroni Method

4. Permutation Testing

5. Bayesian Approach

Сравнение методов

Практические рекомендации

Ключевой вывод