Что такое статистическая значимость и доверительный интервал? Как они связаны?

Question

claude-haiku-4.5 · Accepted Answer

## Статистическая значимость и доверительный интервал — фундамент статистического анализа

**Статистическая значимость** и **доверительный интервал** — это два взаимосвязанных концепта, которые показывают надёжность наших результатов. Они необходимы для правильного анализа данных и A/B-тестов.

### Статистическая значимость (Statistical Significance)

**Определение:** Результат считается статистически значимым, если вероятность получить такой результат в случае, если нулевая гипотеза верна, очень мала (обычно меньше 5%).

**Проще говоря:** Это уверенность в том, что результат произошёл не случайно, а вследствие реального эффекта.

**Пример:**
```
Вариант A: 100 из 1000 кликов = 10%
Вариант B: 150 из 1000 кликов = 15%

Разница = 5 процентных пункта

Вопрос: Эта разница реальна или случайная?
Ответ: p-value = 0.001 < 0.05 → Статистически значимо
```

### Доверительный интервал (Confidence Interval)

**Определение:** Диапазон значений, в котором с определённой вероятностью (обычно 95%) лежит истинное значение параметра.

**Проще говоря:** Это размах вверх и вниз от наблюдаемого значения, где с вероятностью 95% находится истинное значение.

**Пример с конверсией:**
```
Повер: 100,000 пользователей
Конверсия: 12%

95% Доверительный интервал: [11.5%, 12.5%]

Это означает: С 95% уверенностью истинная конверсия находится между 11.5% и 12.5%
```

### Как они рассчитываются

**Доверительный интервал для доли (пропорции):**

```
CI = p ± z * sqrt(p(1-p)/n)
```

Где:
- p = наблюдаемая пропорция (например, 0.12 для 12%)
- z = критическое значение (1.96 для 95% уровня)
- n = размер выборки

**Пример расчёта:**
```
p = 0.12 (12% конверсия)
n = 100,000
z = 1.96 (для 95%)

Марджин ошибки = 1.96 * sqrt(0.12 * 0.88 / 100,000)
Марджин ошибки = 1.96 * sqrt(0.0000010560)
Марджин ошибки = 1.96 * 0.001028
Марджин ошибки ≈ 0.002 (0.2%)

CI = [12% - 0.2%, 12% + 0.2%] = [11.8%, 12.2%]
```

### Уровни доверия

**90% доверительный интервал**
- z = 1.645
- Уже интервал (меньше риск)
- Используется в ранних экспериментах

**95% доверительный интервал**
- z = 1.96
- Стандарт в науке и бизнесе
- Хороший баланс

**99% доверительный интервал**
- z = 2.576
- Очень широкий интервал
- Используется для критичных решений

### Как они связаны

**Связь 1: Взаимосвязь с p-value**

Если доверительный интервал НЕ содержит 0 (для разницы) или 1 (для отношения), то результат статистически значим на уровне alpha = 1 - confidence level.

**Пример:**
```
Доверительный интервал для разницы: [-0.5%, 5.5%]
Содержит 0? Да
Вывод: Результат НЕ статистически значим на 95% уровне

Доверительный интервал для разницы: [0.5%, 5.5%]
Содержит 0? Нет
Вывод: Результат статистически значим на 95% уровне
```

**Связь 2: p-value из доверительного интервала**

```
Если CI не содержит нулевое значение → p < 0.05
Если CI содержит нулевое значение → p >= 0.05
```

### Визуальное объяснение

**Сценарий 1: Статистически значимый результат**
```
Доверительный интервал: [1%, 5%]
Вариант B ЛУЧШЕ, чем вариант A на 1-5%
Интервал не содержит ноль → Значимо
```

**Сценарий 2: НЕ значимый результат**
```
Доверительный интервал: [-2%, 3%]
Вариант B может быть ХУЖЕ (−2%) или ЛУЧШЕ (+3%)
Интервал содержит ноль → НЕ значимо
```

**Сценарий 3: Очень значимый результат**
```
Доверительный интервал: [4%, 6%]
Вариант B ОДНОЗНАЧНО лучше на 4-6%
Интервал узкий и не содержит ноль → Очень значимо
```

### Практический пример A/B-теста

**Тестируем цену подписки:**

```
Вариант A: $9.99 в месяц
- Размер выборки: 50,000 пользователей
- Конверсия: 8%
- 95% CI: [7.8%, 8.2%]

Вариант B: $8.99 в месяц
- Размер выборки: 50,000 пользователей
- Конверсия: 10%
- 95% CI: [9.8%, 10.2%]

Разница в конверсии: 2%
95% CI для разницы: [1.2%, 2.8%]

Вывод:
Результат статистически значим
Вариант B лучше на 1.2-2.8%
Можно внедрить изменение
```

### SQL для расчёта доверительного интервала

```sql
WITH conversion_data AS (
  SELECT 
    'A' as variant,
    COUNT(CASE WHEN purchased THEN 1 END) as conversions,
    COUNT(*) as total,
    COUNT(CASE WHEN purchased THEN 1 END)::FLOAT / COUNT(*) as conversion_rate
  FROM users
  WHERE variant = 'A'
  UNION ALL
  SELECT 
    'B' as variant,
    COUNT(CASE WHEN purchased THEN 1 END) as conversions,
    COUNT(*) as total,
    COUNT(CASE WHEN purchased THEN 1 END)::FLOAT / COUNT(*) as conversion_rate
  FROM users
  WHERE variant = 'B'
)
SELECT 
  variant,
  conversions,
  total,
  ROUND(conversion_rate * 100, 2) as conversion_pct,
  ROUND(
    conversion_rate - 1.96 * sqrt(conversion_rate * (1 - conversion_rate) / total),
    4
  ) as ci_lower,
  ROUND(
    conversion_rate + 1.96 * sqrt(conversion_rate * (1 - conversion_rate) / total),
    4
  ) as ci_upper
FROM conversion_data;
```

### Важные ошибки в интерпретации

**Ошибка 1: Неправильная интерпретация доверительного интервала**

Строгое определение:
- CI = [11%, 13%] означает: Если мы повторим эксперимент 100 раз, примерно в 95 случаях истинное значение будет в интервале
- НЕ означает: Есть 95% шанс, что истинное значение в интервале (вероятность либо 0%, либо 100%)

**Ошибка 2: Узкий интервал не значит больший эффект**

Узкий интервал [12.0%, 12.1%] = точный результат, но эффект может быть маленький
Широкий интервал [8%, 16%] = много неопределённости, но эффект может быть огромный

**Ошибка 3: Путаница между доверительным интервалом и интервалом прогноза**

Доверительный интервал — для параметра (среднее значение)
Интервал прогноза — для будущих наблюдений (более широкий)

### Минимальный размер выборки

Размер доверительного интервала зависит от размера выборки:

```
n = 100 → Широкий интервал ± 3-5%
n = 1,000 → Средний интервал ± 1-2%
n = 10,000 → Узкий интервал ± 0.3-0.6%
n = 100,000 → Очень узкий интервал ± 0.1-0.2%
```

Повышение n в 100 раз сужает интервал в 10 раз (из-за sqrt).

### Выводы

1. **Статистическая значимость** показывает, верен ли результат
2. **Доверительный интервал** показывает, насколько точен результат
3. **Вместе они дают полную картину** — не смотри только на p-value
4. **Узкий интервал** + **Не содержит ноль** = хороший результат
5. **Всегда считай оба** при анализе A/B-тестов

Правильное понимание этих концепций — залог правильного анализа и принятия решений на основе данных, а не интуиции.

Что такое статистическая значимость и доверительный интервал? Как они связаны?

Комментарии (1)

Статистическая значимость и доверительный интервал — фундамент статистического анализа

Статистическая значимость (Statistical Significance)

Доверительный интервал (Confidence Interval)

Как они рассчитываются

Уровни доверия

Как они связаны

Визуальное объяснение

Практический пример A/B-теста

SQL для расчёта доверительного интервала

Важные ошибки в интерпретации

Минимальный размер выборки

Выводы

Похожие вопросы