← Назад к вопросам
Что такое дисперсия и стандартное отклонение? Для чего они используются в аналитике?
1.0 Junior🔥 171 комментариев
#Статистика и математика
Комментарии (1)
🐱
claude-haiku-4.5PrepBro AI26 мар. 2026 г.(ред.)
Ответ сгенерирован нейросетью и может содержать ошибки
Дисперсия и стандартное отклонение
Определение
Дисперсия (Variance) — это мера того, насколько значения в наборе отличаются от среднего. Показывает "разброс" данных.
Стандартное отклонение (Standard Deviation) — это корень из дисперсии. Измеряется в тех же единицах, что исходные данные.
Формулы
Дисперсия:
σ² = Σ(x - mean)² / n
Где:
- Σ = сумма
- x = каждое значение
- mean = среднее значение
- n = количество значений
Стандартное отклонение:
σ = √(дисперсия)
Пример вычисления
Данные: [10, 12, 14, 16, 18]
Mean = 14
Дисперсия:
- Отклонения от среднего: [-4, -2, 0, 2, 4]
- В квадрате: [16, 4, 0, 4, 16]
- Сумма: 40
- Дисперсия = 40 / 5 = 8
Стандартное отклонение:
- σ = √8 = 2.83
Интерпретация
σ (стандартное отклонение) = 2.83
Mean = 14
Интерпретация:
- Примерно 68% данных в диапазоне ±1σ: [11.17, 16.83]
- Примерно 95% данных в диапазоне ±2σ: [8.34, 19.66]
- Примерно 99.7% данных в диапазоне ±3σ: [5.51, 22.49]
Это правило 68-95-99.7 (Three Sigma Rule) для нормального распределения
Практические примеры
Пример 1: Две группы с одинаковым средним, разными разбросами
Группа A (стабильная): [19, 20, 21]
Mean = 20, σ = 0.82
Группа B (нестабильная): [1, 20, 39]
Mean = 20, σ = 19.08
Вывод: Обе группы имеют среднее 20, но группа B намного более волатильна!
Пример 2: Session Duration
Среднее время сессии = 10 минут
Сценарий A (низкая дисперсия σ = 1):
Большинство сессий 9-11 минут (предсказуемо)
Сценарий B (высокая дисперсия σ = 5):
Сессии 5-15 минут (непредсказуемо, есть выбросы)
Вывод: Сценарий A стабильнее, пользователи более предсказуемы
Применение в аналитике
1. Оценка волатильности
-- Какой канал маркетинга более волатилен?
SELECT
channel,
AVG(daily_revenue) as mean_revenue,
STDDEV(daily_revenue) as std_dev,
STDDEV(daily_revenue) / AVG(daily_revenue) as coefficient_of_variation
FROM marketing_daily
GROUP BY channel;
Результат:
- Organic: Mean = $1000, σ = $100, CV = 10% (стабильно)
- Paid: Mean = $1000, σ = $300, CV = 30% (волатильно)
2. Обнаружение аномалий
Если значение отличается от среднего > 3σ → это аномалия!
Mean = 50, σ = 5
Диапазон нормального = [35, 65]
Значение = 100 → АНОМАЛИЯ (> 3σ)
SQL:
SELECT *
FROM metrics
WHERE value > mean + 3 * stddev
OR value < mean - 3 * stddev;
3. Сравнение групп (A/B тест)
Тест конверсии:
Group A: Mean CR = 5%, σ = 0.5%
Group B: Mean CR = 5.5%, σ = 0.4%
Разница в средних = 0.5pp
Но Group B более стабильна (меньше σ)
→ Group B более надёжен, выбираем его
4. Прогнозирование
Историческая выручка:
Mean = $100k/day
σ = $10k
Можем ожидать, что завтра выручка будет в диапазоне:
- 68% вероятность: $90k-$110k
- 95% вероятность: $80k-$120k
SQL примеры
-- Стандартное отклонение
SELECT
STDDEV(revenue) as std_dev,
STDDEV_POP(revenue) as population_stddev, -- для всей популяции
VAR_SAMP(revenue) as variance -- дисперсия
FROM transactions;
-- Коэффициент вариации (разброс в % от среднего)
SELECT
AVG(value) as mean,
STDDEV(value) as std_dev,
ROUND(100.0 * STDDEV(value) / AVG(value), 2) as cv_percent
FROM metrics
GROUP BY category;
-- Обнаружение аномалий
WITH stats AS (
SELECT
AVG(daily_orders) as mean,
STDDEV(daily_orders) as stddev
FROM daily_metrics
)
SELECT
date,
daily_orders,
CASE
WHEN daily_orders > (SELECT mean FROM stats) + 3 * (SELECT stddev FROM stats) THEN 'Anomaly: Too High'
WHEN daily_orders < (SELECT mean FROM stats) - 3 * (SELECT stddev FROM stats) THEN 'Anomaly: Too Low'
ELSE 'Normal'
END as status
FROM daily_metrics
ORDER BY date DESC;
Дисперсия vs Стандартное отклонение
Дисперсия:
- Измеряется в квадратах единиц ($ ², часы²)
- Тяжелее интерпретировать
- Используется в статистических формулах
Стандартное отклонение:
- Измеряется в исходных единицах ($ , часы)
- Легче интерпретировать
- Лучше для презентаций
Правило эмпирического диапазона (68-95-99.7)
Для нормального распределения:
Mean ± 1σ: 68% данных (большинство)
Mean ± 2σ: 95% данных (почти все)
Mean ± 3σ: 99.7% данных (практически все)
Пример:
Mean = 100, σ = 10
68% пользователей: 90-110
95% пользователей: 80-120
99.7% пользователей: 70-130
Применение для Product Analyst
Мониторинг продукта:
- Следить за σ ключевых метрик
- Если σ растёт → качество деградирует
- Если σ падает → процесс стабилизировался
Планирование ёмкости:
- Mean revenue = $10k/day, σ = $2k
- В плохой день (mean - 3σ) = $4k
- В хороший день (mean + 3σ) = $16k
- Планируем серверы на peak (mean + 3σ)
Выявление проблем:
- Если σ резко выросла → есть проблема или изменилось поведение
- Если σ аномально мала → может быть баг (все дают одинаковый результат)
Итог
Дисперсия и стандартное отклонение показывают стабильность/волатильность:
- σ = 0 → Все значения идентичны (редко)
- Маленькое σ → Данные стабильны, предсказуемы
- Большое σ → Данные волатильны, много вариаций
- Всегда смотри σ вместе с mean!