← Назад к вопросам

Что такое статистический метод хи-квадрат?

2.3 Middle🔥 201 комментариев
#A/B тестирование#Статистика и математика

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI26 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Хи-квадрат тест (Chi-square test): определение и применение

Хи-квадрат (χ²) тест — это статистический метод для проверки независимости между двумя категориальными переменными или для сравнения наблюдаемых данных с ожидаемыми частотами.

Формула хи-квадрат

χ² = Σ ((Наблюдаемое - Ожидаемое)² / Ожидаемое)

Где:

  • Наблюдаемое (O) — фактическая частота из данных
  • Ожидаемое (E) — теоретическая частота при нулевой гипотезе

Виды хи-квадрат тестов

1. Test of Independence — проверка связи между двумя переменными. Пример: связана ли демография с выбором платежа?

2. Goodness of Fit — соответствие распределения. Пример: распределены ли пользователи равномерно по дням недели?

3. Homogeneity — однородность распределений. Пример: одинаково ли распределены пользователи по странам в разные периоды?

Практический пример: A/B тест

Сравниваем Red vs Blue кнопку:

ГруппаКликнулиНе кликнулиВсего
Red1508501000
Blue1808201000
Всего33016702000

Ожидаемая частота Red & Click = (1000 × 330) / 2000 = 165

Хи-квадрат = ((150-165)² / 165) + ((850-835)² / 835) + ((180-165)² / 165) + ((820-835)² / 835) = 3.26

SQL для расчёта хи-квадрат

WITH data AS (
  SELECT 
    variation,
    clicked,
    COUNT(*) as observed_count
  FROM ab_test_results
  GROUP BY variation, clicked
),
expected_calc AS (
  SELECT 
    variation,
    clicked,
    observed_count,
    (SUM(observed_count) OVER () * 
     SUM(CASE WHEN variation = data.variation THEN observed_count ELSE 0 END) OVER () / 
     SUM(observed_count) OVER ()) as expected_count
  FROM data
)
SELECT 
  SUM(POWER(observed_count - expected_count, 2) / expected_count) as chi_square
FROM expected_calc;

Интерпретация результатов

p-value:

  • p < 0.05 → отвергаем нулевую гипотезу (есть статистическая связь)
  • p ≥ 0.05 → нет оснований для отклонения (нет связи)

Степени свободы (df) = (строк - 1) × (столбцов - 1) Для таблицы 2×2: df = 1

Критическое значение:

  • При df=1 и α=0.05: критическое χ² = 3.84
  • Если χ² > 3.84 → статистически значимо

Когда использовать хи-квадрат

Используй если:

  • Обе переменные категориальные (платформа, страна, вариант)
  • Размер выборки достаточный (expected > 5 в каждой ячейке)
  • Проверяешь независимость переменных

Не используй если:

  • Переменные непрерывные (используй корреляцию)
  • Очень малые ячейки (expected < 5)
  • Зависимые выборки (используй McNemar's test)

Примеры в product analytics

  1. Зависит ли платёж от платформы? Таблица 2×2: платформа (iOS/Android) × результат (успех/ошибка)
  2. Отличается ли распределение стран в контрольной и опытной группе? Таблица 2×N: группа × страна
  3. Связана ли подписка с возрастом? Таблица M×2: возрастная группа × статус подписки
  4. Равномерно ли распределены события по дням? Таблица 1×7: день недели × количество событий

Эффект размера и крамеровское V

Хи-квадрат показывает наличие связи, но не её силу. Используй Cramer's V:

V = √(χ² / (n × (min(k-1, r-1))))

Где n — размер выборки, k — столбцы, r — строки.

  • V = 0: нет связи
  • V = 0.1-0.3: слабая связь
  • V = 0.3-0.5: средняя связь
  • V > 0.5: сильная связь

Ограничения

⚠️ Требует достаточно большой выборки ⚠️ Чувствителен к малым ячейкам ⚠️ Не показывает размер эффекта (только наличие) ⚠️ Работает только с категориальными данными

Роль Product Analyst

Хи-квадрат критичен для анализа категориальных A/B тестов, выявления связей между демографией и поведением, проверки гипотез о распределении пользователей. Это стандартный инструмент для быстрой проверки статистической значимости в product analytics.