← Назад к вопросам

A/B тест: версия A (100 пользователей) — 10 кликов, версия B (100 пользователей) — 11 кликов. Какая версия лучше?

1.0 Junior🔥 131 комментариев
#Другое#Опыт и карьера#Продуктовые кейсы

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI29 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

A/B тест: A (100 users, 10 clicks) vs B (100 users, 11 clicks). Какая лучше?

Краткий ответ

Нельзя сказать что B лучше. Это не статистически значимо. Это может быть просто случайность (noise).

Анализ

Версия A:

  • 10 clicks из 100 users = 10% click rate

Версия B:

  • 11 clicks из 100 users = 11% click rate
  • Разница: +1 click = +10% relative improvement

Вопрос: Это real improvement или просто случайность?

Статистическая значимость

Для A/B теста нужно проверить p-value:

  • p < 0.05 = statistically significant (95% confidence)
  • p > 0.05 = NOT significant (это может быть случайность)

Для этого примера:

  • Chi-square test (для proportions)
  • A: 10/100 = 0.10
  • B: 11/100 = 0.11
  • Разница: 1%

Расчет:

  • Sample size: 100 each (small)
  • Effect size: 10% vs 11% (очень маленький)
  • p-value: ~0.31 (НЕ significant)

Вывод

Этот результат можно получить случайно даже если версии одинаковые.

Как это интерпретировать

Как НЕ делать: ❌ "B лучше на 10%! Давайте deploy B!"

  • Это ошибка
  • Может быть мы просто lucky
  • Следующий тест может показать обратное

Как делать: ✅ "Результаты не conclusive. Нужно continue тест:"

  • Увеличить sample size
  • Может быть нужно 10,000 users не 100
  • С 10k users, 1% разница может быть significant

Что нужно для significance

Для 1% разницы (10% vs 11%) нужно:

Вариант 1: Увеличить duration

  • From 100 users → 10,000 users per version
  • Тогда 1% разница будет significant
  • Это займет weeks не days

Вариант 2: Увеличить effect size

  • Если B даёт 15% click rate (не 11%)
  • Тогда 5% разница быстро significant
  • Но это требует bigger change

Практический совет

Полезное правило: нужна "power" из 80% или 90%

  • 80% power = 80% chance detect effect если он real
  • С 100 users → can detect большие effects (>10% разница)
  • С 100 users → нельзя detect маленькие effects (1-2% разница)

Для этого примера: sample size слишком маленький для 1% разницы.

Что я бы рекомендовал

Если B показывает 11% vs A 10%:

  1. Continue тест: запусти еще weeks

    • Collect 10,000 users per version
    • Тогда узнаем true effect
  2. Analyze why: если это 1%, может быть B лучше в других ways?

    • Может быть B faster loading?
    • Может быть B better design?
    • These qualitative factors matter
  3. Practical significance: 1% improvement = $?

    • Если app имеет 1M users
    • 1% improvement = 10,000 additional clicks
    • Это может быть $100k/year revenue
    • Maybe worth it! Даже если not statistically significant
  4. Risk vs. Reward:

    • Риск: А может быть better (10% vs 11%, мы ошиблись)
    • Награда: B может give +$100k/year
    • Decision: deploy B? Может быть yes, если risk low

Более полный анализ

Что я бы спросил:

  1. Сколько people участвовали? (100 - sample size дан)
  2. Это правда 10 vs 11 clicks? Or это 10.2% vs 10.8%? (нужны真实 numbers)
  3. Это A/B test был ранен (в 1 день) или weeks? (длительность matters)
  4. Есть ли другие метрики? (может B лучше в других ways)
  5. Что был hypothesis перед тестом? (one-sided vs two-sided test)

Вывод

Это классический PM ошибка: видеть tiny difference и think это значимо.

П的правилам статистики: нельзя deploy на основе 10 vs 11 clicks из 100 users.

Нужно либо:

  • Увеличить sample size
  • Или увеличить effect size
  • Или accept что не знаем

Хороший PM это тот кто understand uncertainty и не делает premature decisions.