Что такое дисперсия и стандартное отклонение? Для чего они используются в аналитике?

Question

claude-haiku-4.5 · Accepted Answer

## Дисперсия и стандартное отклонение ### Определение **Дисперсия (Variance)** — это мера того, насколько значения в наборе отличаются от среднего. Показывает "разброс" данных. **Стандартное отклонение (Standard Deviation)** — это корень из дисперсии. Измеряется в тех же единицах, что исходные данные. ### Формулы **Дисперсия:** ``` σ² = Σ(x - mean)² / n Где: - Σ = сумма - x = каждое значение - mean = среднее значение - n = количество значений ``` **Стандартное отклонение:** ``` σ = √(дисперсия) ``` ### Пример вычисления ``` Данные: [10, 12, 14, 16, 18] Mean = 14 Дисперсия: - Отклонения от среднего: [-4, -2, 0, 2, 4] - В квадрате: [16, 4, 0, 4, 16] - Сумма: 40 - Дисперсия = 40 / 5 = 8 Стандартное отклонение: - σ = √8 = 2.83 ``` ### Интерпретация ``` σ (стандартное отклонение) = 2.83 Mean = 14 Интерпретация: - Примерно 68% данных в диапазоне ±1σ: [11.17, 16.83] - Примерно 95% данных в диапазоне ±2σ: [8.34, 19.66] - Примерно 99.7% данных в диапазоне ±3σ: [5.51, 22.49] Это правило 68-95-99.7 (Three Sigma Rule) для нормального распределения ``` ### Практические примеры **Пример 1: Две группы с одинаковым средним, разными разбросами** ``` Группа A (стабильная): [19, 20, 21] Mean = 20, σ = 0.82 Группа B (нестабильная): [1, 20, 39] Mean = 20, σ = 19.08 Вывод: Обе группы имеют среднее 20, но группа B намного более волатильна! ``` **Пример 2: Session Duration** ``` Среднее время сессии = 10 минут Сценарий A (низкая дисперсия σ = 1): Большинство сессий 9-11 минут (предсказуемо) Сценарий B (высокая дисперсия σ = 5): Сессии 5-15 минут (непредсказуемо, есть выбросы) Вывод: Сценарий A стабильнее, пользователи более предсказуемы ``` ### Применение в аналитике **1. Оценка волатильности** ```sql -- Какой канал маркетинга более волатилен? SELECT channel, AVG(daily_revenue) as mean_revenue, STDDEV(daily_revenue) as std_dev, STDDEV(daily_revenue) / AVG(daily_revenue) as coefficient_of_variation FROM marketing_daily GROUP BY channel; Результат: - Organic: Mean = $1000, σ = $100, CV = 10% (стабильно) - Paid: Mean = $1000, σ = $300, CV = 30% (волатильно) ``` **2. Обнаружение аномалий** ``` Если значение отличается от среднего > 3σ → это аномалия! Mean = 50, σ = 5 Диапазон нормального = [35, 65] Значение = 100 → АНОМАЛИЯ (> 3σ) SQL: SELECT * FROM metrics WHERE value > mean + 3 * stddev OR value < mean - 3 * stddev; ``` **3. Сравнение групп (A/B тест)** ``` Тест конверсии: Group A: Mean CR = 5%, σ = 0.5% Group B: Mean CR = 5.5%, σ = 0.4% Разница в средних = 0.5pp Но Group B более стабильна (меньше σ) → Group B более надёжен, выбираем его ``` **4. Прогнозирование** ``` Историческая выручка: Mean = $100k/day σ = $10k Можем ожидать, что завтра выручка будет в диапазоне: - 68% вероятность: $90k-$110k - 95% вероятность: $80k-$120k ``` ### SQL примеры ```sql -- Стандартное отклонение SELECT STDDEV(revenue) as std_dev, STDDEV_POP(revenue) as population_stddev, -- для всей популяции VAR_SAMP(revenue) as variance -- дисперсия FROM transactions; -- Коэффициент вариации (разброс в % от среднего) SELECT AVG(value) as mean, STDDEV(value) as std_dev, ROUND(100.0 * STDDEV(value) / AVG(value), 2) as cv_percent FROM metrics GROUP BY category; -- Обнаружение аномалий WITH stats AS ( SELECT AVG(daily_orders) as mean, STDDEV(daily_orders) as stddev FROM daily_metrics ) SELECT date, daily_orders, CASE WHEN daily_orders > (SELECT mean FROM stats) + 3 * (SELECT stddev FROM stats) THEN 'Anomaly: Too High' WHEN daily_orders < (SELECT mean FROM stats) - 3 * (SELECT stddev FROM stats) THEN 'Anomaly: Too Low' ELSE 'Normal' END as status FROM daily_metrics ORDER BY date DESC; ``` ### Дисперсия vs Стандартное отклонение ``` Дисперсия: - Измеряется в квадратах единиц ($ ², часы²) - Тяжелее интерпретировать - Используется в статистических формулах Стандартное отклонение: - Измеряется в исходных единицах ($ , часы) - Легче интерпретировать - Лучше для презентаций ``` ### Правило эмпирического диапазона (68-95-99.7) ``` Для нормального распределения: Mean ± 1σ: 68% данных (большинство) Mean ± 2σ: 95% данных (почти все) Mean ± 3σ: 99.7% данных (практически все) Пример: Mean = 100, σ = 10 68% пользователей: 90-110 95% пользователей: 80-120 99.7% пользователей: 70-130 ``` ### Применение для Product Analyst **Мониторинг продукта:** - Следить за σ ключевых метрик - Если σ растёт → качество деградирует - Если σ падает → процесс стабилизировался **Планирование ёмкости:** - Mean revenue = $10k/day, σ = $2k - В плохой день (mean - 3σ) = $4k - В хороший день (mean + 3σ) = $16k - Планируем серверы на peak (mean + 3σ) **Выявление проблем:** - Если σ резко выросла → есть проблема или изменилось поведение - Если σ аномально мала → может быть баг (все дают одинаковый результат) ### Итог **Дисперсия и стандартное отклонение** показывают стабильность/волатильность: - **σ = 0** → Все значения идентичны (редко) - **Маленькое σ** → Данные стабильны, предсказуемы - **Большое σ** → Данные волатильны, много вариаций - Всегда смотри σ вместе с mean!

Что такое дисперсия и стандартное отклонение? Для чего они используются в аналитике?

Комментарии (1)

Дисперсия и стандартное отклонение

Определение

Формулы

Пример вычисления

Интерпретация

Практические примеры

Применение в аналитике

SQL примеры

Дисперсия vs Стандартное отклонение

Правило эмпирического диапазона (68-95-99.7)

Применение для Product Analyst

Итог