← Назад к вопросам

Что такое статистическая значимость и доверительный интервал? Как они связаны?

2.0 Middle🔥 201 комментариев
#A/B тестирование#Статистика и математика

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI26 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Статистическая значимость и доверительный интервал — фундамент статистического анализа

Статистическая значимость и доверительный интервал — это два взаимосвязанных концепта, которые показывают надёжность наших результатов. Они необходимы для правильного анализа данных и A/B-тестов.

Статистическая значимость (Statistical Significance)

Определение: Результат считается статистически значимым, если вероятность получить такой результат в случае, если нулевая гипотеза верна, очень мала (обычно меньше 5%).

Проще говоря: Это уверенность в том, что результат произошёл не случайно, а вследствие реального эффекта.

Пример:

Вариант A: 100 из 1000 кликов = 10%
Вариант B: 150 из 1000 кликов = 15%

Разница = 5 процентных пункта

Вопрос: Эта разница реальна или случайная?
Ответ: p-value = 0.001 < 0.05 → Статистически значимо

Доверительный интервал (Confidence Interval)

Определение: Диапазон значений, в котором с определённой вероятностью (обычно 95%) лежит истинное значение параметра.

Проще говоря: Это размах вверх и вниз от наблюдаемого значения, где с вероятностью 95% находится истинное значение.

Пример с конверсией:

Повер: 100,000 пользователей
Конверсия: 12%

95% Доверительный интервал: [11.5%, 12.5%]

Это означает: С 95% уверенностью истинная конверсия находится между 11.5% и 12.5%

Как они рассчитываются

Доверительный интервал для доли (пропорции):

CI = p ± z * sqrt(p(1-p)/n)

Где:

  • p = наблюдаемая пропорция (например, 0.12 для 12%)
  • z = критическое значение (1.96 для 95% уровня)
  • n = размер выборки

Пример расчёта:

p = 0.12 (12% конверсия)
n = 100,000
z = 1.96 (для 95%)

Марджин ошибки = 1.96 * sqrt(0.12 * 0.88 / 100,000)
Марджин ошибки = 1.96 * sqrt(0.0000010560)
Марджин ошибки = 1.96 * 0.001028
Марджин ошибки ≈ 0.002 (0.2%)

CI = [12% - 0.2%, 12% + 0.2%] = [11.8%, 12.2%]

Уровни доверия

90% доверительный интервал

  • z = 1.645
  • Уже интервал (меньше риск)
  • Используется в ранних экспериментах

95% доверительный интервал

  • z = 1.96
  • Стандарт в науке и бизнесе
  • Хороший баланс

99% доверительный интервал

  • z = 2.576
  • Очень широкий интервал
  • Используется для критичных решений

Как они связаны

Связь 1: Взаимосвязь с p-value

Если доверительный интервал НЕ содержит 0 (для разницы) или 1 (для отношения), то результат статистически значим на уровне alpha = 1 - confidence level.

Пример:

Доверительный интервал для разницы: [-0.5%, 5.5%]
Содержит 0? Да
Вывод: Результат НЕ статистически значим на 95% уровне

Доверительный интервал для разницы: [0.5%, 5.5%]
Содержит 0? Нет
Вывод: Результат статистически значим на 95% уровне

Связь 2: p-value из доверительного интервала

Если CI не содержит нулевое значение → p < 0.05
Если CI содержит нулевое значение → p >= 0.05

Визуальное объяснение

Сценарий 1: Статистически значимый результат

Доверительный интервал: [1%, 5%]
Вариант B ЛУЧШЕ, чем вариант A на 1-5%
Интервал не содержит ноль → Значимо

Сценарий 2: НЕ значимый результат

Доверительный интервал: [-2%, 3%]
Вариант B может быть ХУЖЕ (−2%) или ЛУЧШЕ (+3%)
Интервал содержит ноль → НЕ значимо

Сценарий 3: Очень значимый результат

Доверительный интервал: [4%, 6%]
Вариант B ОДНОЗНАЧНО лучше на 4-6%
Интервал узкий и не содержит ноль → Очень значимо

Практический пример A/B-теста

Тестируем цену подписки:

Вариант A: $9.99 в месяц
- Размер выборки: 50,000 пользователей
- Конверсия: 8%
- 95% CI: [7.8%, 8.2%]

Вариант B: $8.99 в месяц
- Размер выборки: 50,000 пользователей
- Конверсия: 10%
- 95% CI: [9.8%, 10.2%]

Разница в конверсии: 2%
95% CI для разницы: [1.2%, 2.8%]

Вывод:
Результат статистически значим
Вариант B лучше на 1.2-2.8%
Можно внедрить изменение

SQL для расчёта доверительного интервала

WITH conversion_data AS (
  SELECT 
    'A' as variant,
    COUNT(CASE WHEN purchased THEN 1 END) as conversions,
    COUNT(*) as total,
    COUNT(CASE WHEN purchased THEN 1 END)::FLOAT / COUNT(*) as conversion_rate
  FROM users
  WHERE variant = 'A'
  UNION ALL
  SELECT 
    'B' as variant,
    COUNT(CASE WHEN purchased THEN 1 END) as conversions,
    COUNT(*) as total,
    COUNT(CASE WHEN purchased THEN 1 END)::FLOAT / COUNT(*) as conversion_rate
  FROM users
  WHERE variant = 'B'
)
SELECT 
  variant,
  conversions,
  total,
  ROUND(conversion_rate * 100, 2) as conversion_pct,
  ROUND(
    conversion_rate - 1.96 * sqrt(conversion_rate * (1 - conversion_rate) / total),
    4
  ) as ci_lower,
  ROUND(
    conversion_rate + 1.96 * sqrt(conversion_rate * (1 - conversion_rate) / total),
    4
  ) as ci_upper
FROM conversion_data;

Важные ошибки в интерпретации

Ошибка 1: Неправильная интерпретация доверительного интервала

Строгое определение:

  • CI = [11%, 13%] означает: Если мы повторим эксперимент 100 раз, примерно в 95 случаях истинное значение будет в интервале
  • НЕ означает: Есть 95% шанс, что истинное значение в интервале (вероятность либо 0%, либо 100%)

Ошибка 2: Узкий интервал не значит больший эффект

Узкий интервал [12.0%, 12.1%] = точный результат, но эффект может быть маленький Широкий интервал [8%, 16%] = много неопределённости, но эффект может быть огромный

Ошибка 3: Путаница между доверительным интервалом и интервалом прогноза

Доверительный интервал — для параметра (среднее значение) Интервал прогноза — для будущих наблюдений (более широкий)

Минимальный размер выборки

Размер доверительного интервала зависит от размера выборки:

n = 100 → Широкий интервал ± 3-5%
n = 1,000 → Средний интервал ± 1-2%
n = 10,000 → Узкий интервал ± 0.3-0.6%
n = 100,000 → Очень узкий интервал ± 0.1-0.2%

Повышение n в 100 раз сужает интервал в 10 раз (из-за sqrt).

Выводы

  1. Статистическая значимость показывает, верен ли результат
  2. Доверительный интервал показывает, насколько точен результат
  3. Вместе они дают полную картину — не смотри только на p-value
  4. Узкий интервал + Не содержит ноль = хороший результат
  5. Всегда считай оба при анализе A/B-тестов

Правильное понимание этих концепций — залог правильного анализа и принятия решений на основе данных, а не интуиции.