← Назад к вопросам

Является ли значимым изменение доверительного интервала метрики VB в Т-тесте на 0,1-1%?

3.0 Senior🔥 21 комментариев
#A/B тестирование#Статистика и математика

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI26 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Значимость изменения доверительного интервала в T-тесте: анализ

Вопрос: Является ли изменение доверительного интервала на 0,1-1% значимым?

Короткий ответ: НЕ обязательно. Нужно анализировать контекст. Изменение ширины доверительного интервала на 0,1-1% — это скорее метрика качества эксперимента, чем значимость результата.

Понимание доверительного интервала

Доверительный интервал (Confidence Interval) — это диапазон значений, в котором с определённой вероятностью (обычно 95%) находится истинное значение параметра.

Пример:

  • Метрика VB (value per booking) в контрольной группе: 100 рублей
  • 95% доверительный интервал: [98, 102] рубля

Это значит: с 95% вероятностью истинное значение находится в этом диапазоне.

Что означает изменение доверительного интервала на 0,1-1%?

Сценарий 1: Сужение интервала

До: VB = 100 [98, 102] (ширина = 4)
После: VB = 100 [99.5, 100.5] (ширина = 1)
Изменение: сужение на 75%

Это означает повышение точности оценки (меньше неопределённости). Это хорошо, но не означает, что фактор статистически значим.

Сценарий 2: Смещение интервала

До: VB = 100 [98, 102]
После: VB = 105 [103, 107]
Изменение: сдвиг на 5%

Это может означать реальный эффект, но нужна проверка через t-тест.

Что НЕ нужно путать

ПонятиеЧто это значитВажно для статистики
Ширина интервалаТочность оценки, размер выборкиКосвенно (больше данных = уже интервал)
Смещение интервалаВозможное изменение метрикиДА, это может быть эффект
Перекрытие интерваловДве группы похожи или разныеИспользуется для быстрой проверки
p-valueВероятность нулевой гипотезыДА, основной показатель значимости

T-тест: правильный способ проверить значимость

Вместо анализа ширины интервала нужно выполнить t-тест:

t = (mean_control - mean_test) / (SE_pooled)

Где:
- mean_control, mean_test — средние значения
- SE_pooled — объединённая стандартная ошибка
- Если |t| > t_critical → есть статистическая значимость

SQL для расчёта доверительного интервала

WITH stats AS (
  SELECT 
    variation,
    COUNT(*) as n,
    AVG(vb) as mean_vb,
    STDDEV_SAMP(vb) as std_vb,
    STDDEV_SAMP(vb) / SQRT(COUNT(*)) as se_vb
  FROM booking_metrics
  GROUP BY variation
)
SELECT 
  variation,
  mean_vb,
  mean_vb - 1.96 * se_vb as ci_lower_95,
  mean_vb + 1.96 * se_vb as ci_upper_95,
  (mean_vb + 1.96 * se_vb) - (mean_vb - 1.96 * se_vb) as ci_width,
  ABS((LAG(mean_vb) OVER (ORDER BY variation) - mean_vb) / LAG(mean_vb) OVER (ORDER BY variation)) as pct_change
FROM stats;

Практический пример: интерпретация

Результаты эксперимента:

Контрольная группа: VB = 100 [99, 101]
Опытная группа:   VB = 101 [100, 102]
Изменение интервала: 0.5% (ширина сужена)

Интерпретация по шагам:

  1. Ширина интервала сужена на 0,5% — это нейтрально для статистической значимости
  2. Но интервалы практически не перекрываются — потенциальный признак разницы
  3. Нужно проверить p-value t-теста:
    • Если p < 0.05 → разница статистически значима
    • Если p > 0.05 → разница случайна

Когда изменение ДИ может быть значимо

✅ Значимо, если:

  1. Ширина интервала сужается → это хороший знак качества
  2. Интервалы контроля и опыта не перекрываются → вероятно есть эффект
  3. Изменение средних > погрешность (2 × SE) → эффект реален
  4. p-value < 0.05 → статистически значим

❌ НЕ значимо, если:

  1. Ширина интервала изменилась на 0,1%, но средние не изменились
  2. Интервалы сильно перекрываются
  3. p-value > 0.05
  4. Размер эффекта малюсенький (< 0,5% от базового значения)

Практическое правило: эффект размер

Effect Size = (mean_test - mean_control) / mean_control

- < 0,5% — слишком мало, даже если статистически значимо
- 0,5-2% — маргинальный эффект, нужна большая выборка
- 2-5% — умеренный эффект, заметен в бизнес-метриках
- > 5% — сильный эффект, явный результат

Реальный пример

Сценарий: Запустили новый UX для booking:

Контроль: VB = 1000 рублей [980, 1020]
Опыт:     VB = 1010 рублей [990, 1030]
Изменение: +1%

Анализ:

  1. Интервалы перекрываются значительно → возможно, нет реального эффекта
  2. t-тест показывает p = 0.15 → НЕ значим (p > 0.05)
  3. Вывод: Изменение на +1% скорее случайное, чем реальный эффект

Правильный чеклист для проверки значимости

  • Размер выборки достаточный (n > 100 в обеих группах)
  • Интервалы не перекрываются значительно
  • p-value < 0.05 (t-тест)
  • Effect size > 0,5-1%
  • Эффект практически значим (влияет на бизнес)
  • Результат воспроизводим

Вывод

Изменение доверительного интервала на 0,1-1% НЕ является показателем значимости. Это просто показатель точности оценки. Для проверки статистической значимости нужно:

  1. Выполнить t-тест и проверить p-value
  2. Оценить размер эффекта (effect size)
  3. Проверить практическую значимость для бизнеса
  4. Убедиться в достаточном размере выборки

Роль Product Analyst — не просто смотреть на ширину интервалов, а комплексно оценивать статистическую и практическую значимость результатов эксперимента.

Является ли значимым изменение доверительного интервала метрики VB в Т-тесте на 0,1-1%? | PrepBro