Что такое статистический метод хи-квадрат?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Хи-квадрат тест (Chi-square test): определение и применение
Хи-квадрат (χ²) тест — это статистический метод для проверки независимости между двумя категориальными переменными или для сравнения наблюдаемых данных с ожидаемыми частотами.
Формула хи-квадрат
χ² = Σ ((Наблюдаемое - Ожидаемое)² / Ожидаемое)
Где:
- Наблюдаемое (O) — фактическая частота из данных
- Ожидаемое (E) — теоретическая частота при нулевой гипотезе
Виды хи-квадрат тестов
1. Test of Independence — проверка связи между двумя переменными. Пример: связана ли демография с выбором платежа?
2. Goodness of Fit — соответствие распределения. Пример: распределены ли пользователи равномерно по дням недели?
3. Homogeneity — однородность распределений. Пример: одинаково ли распределены пользователи по странам в разные периоды?
Практический пример: A/B тест
Сравниваем Red vs Blue кнопку:
| Группа | Кликнули | Не кликнули | Всего |
|---|---|---|---|
| Red | 150 | 850 | 1000 |
| Blue | 180 | 820 | 1000 |
| Всего | 330 | 1670 | 2000 |
Ожидаемая частота Red & Click = (1000 × 330) / 2000 = 165
Хи-квадрат = ((150-165)² / 165) + ((850-835)² / 835) + ((180-165)² / 165) + ((820-835)² / 835) = 3.26
SQL для расчёта хи-квадрат
WITH data AS (
SELECT
variation,
clicked,
COUNT(*) as observed_count
FROM ab_test_results
GROUP BY variation, clicked
),
expected_calc AS (
SELECT
variation,
clicked,
observed_count,
(SUM(observed_count) OVER () *
SUM(CASE WHEN variation = data.variation THEN observed_count ELSE 0 END) OVER () /
SUM(observed_count) OVER ()) as expected_count
FROM data
)
SELECT
SUM(POWER(observed_count - expected_count, 2) / expected_count) as chi_square
FROM expected_calc;
Интерпретация результатов
p-value:
- p < 0.05 → отвергаем нулевую гипотезу (есть статистическая связь)
- p ≥ 0.05 → нет оснований для отклонения (нет связи)
Степени свободы (df) = (строк - 1) × (столбцов - 1) Для таблицы 2×2: df = 1
Критическое значение:
- При df=1 и α=0.05: критическое χ² = 3.84
- Если χ² > 3.84 → статистически значимо
Когда использовать хи-квадрат
✅ Используй если:
- Обе переменные категориальные (платформа, страна, вариант)
- Размер выборки достаточный (expected > 5 в каждой ячейке)
- Проверяешь независимость переменных
❌ Не используй если:
- Переменные непрерывные (используй корреляцию)
- Очень малые ячейки (expected < 5)
- Зависимые выборки (используй McNemar's test)
Примеры в product analytics
- Зависит ли платёж от платформы? Таблица 2×2: платформа (iOS/Android) × результат (успех/ошибка)
- Отличается ли распределение стран в контрольной и опытной группе? Таблица 2×N: группа × страна
- Связана ли подписка с возрастом? Таблица M×2: возрастная группа × статус подписки
- Равномерно ли распределены события по дням? Таблица 1×7: день недели × количество событий
Эффект размера и крамеровское V
Хи-квадрат показывает наличие связи, но не её силу. Используй Cramer's V:
V = √(χ² / (n × (min(k-1, r-1))))
Где n — размер выборки, k — столбцы, r — строки.
- V = 0: нет связи
- V = 0.1-0.3: слабая связь
- V = 0.3-0.5: средняя связь
- V > 0.5: сильная связь
Ограничения
⚠️ Требует достаточно большой выборки ⚠️ Чувствителен к малым ячейкам ⚠️ Не показывает размер эффекта (только наличие) ⚠️ Работает только с категориальными данными
Роль Product Analyst
Хи-квадрат критичен для анализа категориальных A/B тестов, выявления связей между демографией и поведением, проверки гипотез о распределении пользователей. Это стандартный инструмент для быстрой проверки статистической значимости в product analytics.