Что такое статистическая значимость и доверительный интервал? Как они связаны?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Статистическая значимость и доверительный интервал — фундамент статистического анализа
Статистическая значимость и доверительный интервал — это два взаимосвязанных концепта, которые показывают надёжность наших результатов. Они необходимы для правильного анализа данных и A/B-тестов.
Статистическая значимость (Statistical Significance)
Определение: Результат считается статистически значимым, если вероятность получить такой результат в случае, если нулевая гипотеза верна, очень мала (обычно меньше 5%).
Проще говоря: Это уверенность в том, что результат произошёл не случайно, а вследствие реального эффекта.
Пример:
Вариант A: 100 из 1000 кликов = 10%
Вариант B: 150 из 1000 кликов = 15%
Разница = 5 процентных пункта
Вопрос: Эта разница реальна или случайная?
Ответ: p-value = 0.001 < 0.05 → Статистически значимо
Доверительный интервал (Confidence Interval)
Определение: Диапазон значений, в котором с определённой вероятностью (обычно 95%) лежит истинное значение параметра.
Проще говоря: Это размах вверх и вниз от наблюдаемого значения, где с вероятностью 95% находится истинное значение.
Пример с конверсией:
Повер: 100,000 пользователей
Конверсия: 12%
95% Доверительный интервал: [11.5%, 12.5%]
Это означает: С 95% уверенностью истинная конверсия находится между 11.5% и 12.5%
Как они рассчитываются
Доверительный интервал для доли (пропорции):
CI = p ± z * sqrt(p(1-p)/n)
Где:
- p = наблюдаемая пропорция (например, 0.12 для 12%)
- z = критическое значение (1.96 для 95% уровня)
- n = размер выборки
Пример расчёта:
p = 0.12 (12% конверсия)
n = 100,000
z = 1.96 (для 95%)
Марджин ошибки = 1.96 * sqrt(0.12 * 0.88 / 100,000)
Марджин ошибки = 1.96 * sqrt(0.0000010560)
Марджин ошибки = 1.96 * 0.001028
Марджин ошибки ≈ 0.002 (0.2%)
CI = [12% - 0.2%, 12% + 0.2%] = [11.8%, 12.2%]
Уровни доверия
90% доверительный интервал
- z = 1.645
- Уже интервал (меньше риск)
- Используется в ранних экспериментах
95% доверительный интервал
- z = 1.96
- Стандарт в науке и бизнесе
- Хороший баланс
99% доверительный интервал
- z = 2.576
- Очень широкий интервал
- Используется для критичных решений
Как они связаны
Связь 1: Взаимосвязь с p-value
Если доверительный интервал НЕ содержит 0 (для разницы) или 1 (для отношения), то результат статистически значим на уровне alpha = 1 - confidence level.
Пример:
Доверительный интервал для разницы: [-0.5%, 5.5%]
Содержит 0? Да
Вывод: Результат НЕ статистически значим на 95% уровне
Доверительный интервал для разницы: [0.5%, 5.5%]
Содержит 0? Нет
Вывод: Результат статистически значим на 95% уровне
Связь 2: p-value из доверительного интервала
Если CI не содержит нулевое значение → p < 0.05
Если CI содержит нулевое значение → p >= 0.05
Визуальное объяснение
Сценарий 1: Статистически значимый результат
Доверительный интервал: [1%, 5%]
Вариант B ЛУЧШЕ, чем вариант A на 1-5%
Интервал не содержит ноль → Значимо
Сценарий 2: НЕ значимый результат
Доверительный интервал: [-2%, 3%]
Вариант B может быть ХУЖЕ (−2%) или ЛУЧШЕ (+3%)
Интервал содержит ноль → НЕ значимо
Сценарий 3: Очень значимый результат
Доверительный интервал: [4%, 6%]
Вариант B ОДНОЗНАЧНО лучше на 4-6%
Интервал узкий и не содержит ноль → Очень значимо
Практический пример A/B-теста
Тестируем цену подписки:
Вариант A: $9.99 в месяц
- Размер выборки: 50,000 пользователей
- Конверсия: 8%
- 95% CI: [7.8%, 8.2%]
Вариант B: $8.99 в месяц
- Размер выборки: 50,000 пользователей
- Конверсия: 10%
- 95% CI: [9.8%, 10.2%]
Разница в конверсии: 2%
95% CI для разницы: [1.2%, 2.8%]
Вывод:
Результат статистически значим
Вариант B лучше на 1.2-2.8%
Можно внедрить изменение
SQL для расчёта доверительного интервала
WITH conversion_data AS (
SELECT
'A' as variant,
COUNT(CASE WHEN purchased THEN 1 END) as conversions,
COUNT(*) as total,
COUNT(CASE WHEN purchased THEN 1 END)::FLOAT / COUNT(*) as conversion_rate
FROM users
WHERE variant = 'A'
UNION ALL
SELECT
'B' as variant,
COUNT(CASE WHEN purchased THEN 1 END) as conversions,
COUNT(*) as total,
COUNT(CASE WHEN purchased THEN 1 END)::FLOAT / COUNT(*) as conversion_rate
FROM users
WHERE variant = 'B'
)
SELECT
variant,
conversions,
total,
ROUND(conversion_rate * 100, 2) as conversion_pct,
ROUND(
conversion_rate - 1.96 * sqrt(conversion_rate * (1 - conversion_rate) / total),
4
) as ci_lower,
ROUND(
conversion_rate + 1.96 * sqrt(conversion_rate * (1 - conversion_rate) / total),
4
) as ci_upper
FROM conversion_data;
Важные ошибки в интерпретации
Ошибка 1: Неправильная интерпретация доверительного интервала
Строгое определение:
- CI = [11%, 13%] означает: Если мы повторим эксперимент 100 раз, примерно в 95 случаях истинное значение будет в интервале
- НЕ означает: Есть 95% шанс, что истинное значение в интервале (вероятность либо 0%, либо 100%)
Ошибка 2: Узкий интервал не значит больший эффект
Узкий интервал [12.0%, 12.1%] = точный результат, но эффект может быть маленький Широкий интервал [8%, 16%] = много неопределённости, но эффект может быть огромный
Ошибка 3: Путаница между доверительным интервалом и интервалом прогноза
Доверительный интервал — для параметра (среднее значение) Интервал прогноза — для будущих наблюдений (более широкий)
Минимальный размер выборки
Размер доверительного интервала зависит от размера выборки:
n = 100 → Широкий интервал ± 3-5%
n = 1,000 → Средний интервал ± 1-2%
n = 10,000 → Узкий интервал ± 0.3-0.6%
n = 100,000 → Очень узкий интервал ± 0.1-0.2%
Повышение n в 100 раз сужает интервал в 10 раз (из-за sqrt).
Выводы
- Статистическая значимость показывает, верен ли результат
- Доверительный интервал показывает, насколько точен результат
- Вместе они дают полную картину — не смотри только на p-value
- Узкий интервал + Не содержит ноль = хороший результат
- Всегда считай оба при анализе A/B-тестов
Правильное понимание этих концепций — залог правильного анализа и принятия решений на основе данных, а не интуиции.