← Назад к вопросам

Что такое дисперсия и стандартное отклонение? Для чего они используются в аналитике?

1.0 Junior🔥 171 комментариев
#Статистика и математика

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI26 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Дисперсия и стандартное отклонение

Определение

Дисперсия (Variance) — это мера того, насколько значения в наборе отличаются от среднего. Показывает "разброс" данных.

Стандартное отклонение (Standard Deviation) — это корень из дисперсии. Измеряется в тех же единицах, что исходные данные.

Формулы

Дисперсия:

σ² = Σ(x - mean)² / n

Где:
- Σ = сумма
- x = каждое значение
- mean = среднее значение
- n = количество значений

Стандартное отклонение:

σ = √(дисперсия)

Пример вычисления

Данные: [10, 12, 14, 16, 18]
Mean = 14

Дисперсия:
- Отклонения от среднего: [-4, -2, 0, 2, 4]
- В квадрате: [16, 4, 0, 4, 16]
- Сумма: 40
- Дисперсия = 40 / 5 = 8

Стандартное отклонение:
- σ = √8 = 2.83

Интерпретация

σ (стандартное отклонение) = 2.83
Mean = 14

Интерпретация:
- Примерно 68% данных в диапазоне ±1σ: [11.17, 16.83]
- Примерно 95% данных в диапазоне ±2σ: [8.34, 19.66]
- Примерно 99.7% данных в диапазоне ±3σ: [5.51, 22.49]

Это правило 68-95-99.7 (Three Sigma Rule) для нормального распределения

Практические примеры

Пример 1: Две группы с одинаковым средним, разными разбросами

Группа A (стабильная): [19, 20, 21]
Mean = 20, σ = 0.82

Группа B (нестабильная): [1, 20, 39]
Mean = 20, σ = 19.08

Вывод: Обе группы имеют среднее 20, но группа B намного более волатильна!

Пример 2: Session Duration

Среднее время сессии = 10 минут

Сценарий A (низкая дисперсия σ = 1):
Большинство сессий 9-11 минут (предсказуемо)

Сценарий B (высокая дисперсия σ = 5):
Сессии 5-15 минут (непредсказуемо, есть выбросы)

Вывод: Сценарий A стабильнее, пользователи более предсказуемы

Применение в аналитике

1. Оценка волатильности

-- Какой канал маркетинга более волатилен?
SELECT 
    channel,
    AVG(daily_revenue) as mean_revenue,
    STDDEV(daily_revenue) as std_dev,
    STDDEV(daily_revenue) / AVG(daily_revenue) as coefficient_of_variation
FROM marketing_daily
GROUP BY channel;

Результат:
- Organic: Mean = $1000, σ = $100, CV = 10% (стабильно)
- Paid: Mean = $1000, σ = $300, CV = 30% (волатильно)

2. Обнаружение аномалий

Если значение отличается от среднего > 3σ → это аномалия!

Mean = 50, σ = 5
Диапазон нормального = [35, 65]
Значение = 100 → АНОМАЛИЯ (> 3σ)

SQL:
SELECT *
FROM metrics
WHERE value > mean + 3 * stddev
   OR value < mean - 3 * stddev;

3. Сравнение групп (A/B тест)

Тест конверсии:
Group A: Mean CR = 5%, σ = 0.5%
Group B: Mean CR = 5.5%, σ = 0.4%

Разница в средних = 0.5pp
Но Group B более стабильна (меньше σ)
→ Group B более надёжен, выбираем его

4. Прогнозирование

Историческая выручка:
Mean = $100k/day
σ = $10k

Можем ожидать, что завтра выручка будет в диапазоне:
- 68% вероятность: $90k-$110k
- 95% вероятность: $80k-$120k

SQL примеры

-- Стандартное отклонение
SELECT 
    STDDEV(revenue) as std_dev,
    STDDEV_POP(revenue) as population_stddev,  -- для всей популяции
    VAR_SAMP(revenue) as variance  -- дисперсия
FROM transactions;

-- Коэффициент вариации (разброс в % от среднего)
SELECT 
    AVG(value) as mean,
    STDDEV(value) as std_dev,
    ROUND(100.0 * STDDEV(value) / AVG(value), 2) as cv_percent
FROM metrics
GROUP BY category;

-- Обнаружение аномалий
WITH stats AS (
    SELECT 
        AVG(daily_orders) as mean,
        STDDEV(daily_orders) as stddev
    FROM daily_metrics
)
SELECT 
    date,
    daily_orders,
    CASE 
        WHEN daily_orders > (SELECT mean FROM stats) + 3 * (SELECT stddev FROM stats) THEN 'Anomaly: Too High'
        WHEN daily_orders < (SELECT mean FROM stats) - 3 * (SELECT stddev FROM stats) THEN 'Anomaly: Too Low'
        ELSE 'Normal'
    END as status
FROM daily_metrics
ORDER BY date DESC;

Дисперсия vs Стандартное отклонение

Дисперсия:
- Измеряется в квадратах единиц ($ ², часы²)
- Тяжелее интерпретировать
- Используется в статистических формулах

Стандартное отклонение:
- Измеряется в исходных единицах ($ , часы)
- Легче интерпретировать
- Лучше для презентаций

Правило эмпирического диапазона (68-95-99.7)

Для нормального распределения:

Mean ± 1σ: 68% данных (большинство)
Mean ± 2σ: 95% данных (почти все)
Mean ± 3σ: 99.7% данных (практически все)

Пример:
Mean = 100, σ = 10

68% пользователей: 90-110
95% пользователей: 80-120
99.7% пользователей: 70-130

Применение для Product Analyst

Мониторинг продукта:

  • Следить за σ ключевых метрик
  • Если σ растёт → качество деградирует
  • Если σ падает → процесс стабилизировался

Планирование ёмкости:

  • Mean revenue = $10k/day, σ = $2k
  • В плохой день (mean - 3σ) = $4k
  • В хороший день (mean + 3σ) = $16k
  • Планируем серверы на peak (mean + 3σ)

Выявление проблем:

  • Если σ резко выросла → есть проблема или изменилось поведение
  • Если σ аномально мала → может быть баг (все дают одинаковый результат)

Итог

Дисперсия и стандартное отклонение показывают стабильность/волатильность:

  • σ = 0 → Все значения идентичны (редко)
  • Маленькое σ → Данные стабильны, предсказуемы
  • Большое σ → Данные волатильны, много вариаций
  • Всегда смотри σ вместе с mean!