← Назад к вопросам

Назовите меры центральной тенденции. Когда лучше использовать медиану вместо среднего?

1.2 Junior🔥 141 комментариев
#Статистика и математика

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI26 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Меры центральной тенденции

Три основные меры

1. Среднее (Mean)

  • Формула: сумма всех значений / количество значений
  • Учитывает все данные
  • Чувствительно к выбросам

2. Медиана (Median)

  • Значение в середине упорядоченного набора
  • Не зависит от выбросов
  • Лучше для асимметричных распределений

3. Мода (Mode)

  • Наиболее частое значение
  • Хороша для категориальных данных
  • Может быть несколько мод

Когда использовать медиану вместо среднего?

Медиана лучше, когда:

  1. Есть выбросы

    • Пример: Зарплаты [30k, 35k, 40k, 45k, 50k, 100M]
    • Среднее = 16.6M (неправильно из-за олигарха)
    • Медиана = 42.5k (правильно, показывает типичного человека)
  2. Асимметричное распределение

    • Доход: часто много небольших, несколько больших
    • Время загрузки: много быстрых, несколько медленных
    • Среднее смещается в сторону выброса, медиана остаётся в центре
  3. Нужно показать "типичного" пользователя

    • Order Value: медиана показывает, чему равна половина заказов
    • Session Duration: медиана показывает, сколько времени проводит половина пользователей

Среднее лучше, когда:

  1. Нормальное распределение (симметричное)

    • Возраст пользователей, рост, вес
    • Ошибки не смещены в одну сторону
  2. Нужны математические операции

    • Вычисление дисперсии, стандартного отклонения
    • Линейная регрессия
  3. Нет значительных выбросов

Пример из продакта

Длительность сессии:

Данные: [2, 3, 4, 5, 45, 50, 55 минут]

Среднее = 23.4 минуты (НЕПРАВИЛЬНО)
Медиана = 5 минут (ПРАВИЛЬНО - типичная сессия)

Вывод: 2 типа пользователей:
- Быстрые визиты (2-5 мин)
- Глубокие сессии (45-55 мин)

SQL примеры

-- Среднее
SELECT AVG(value) as mean_value FROM data;

-- Медиана
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY value) as median
FROM data;

-- Оба вместе для сравнения
SELECT 
    AVG(revenue) as mean,
    PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY revenue) as median
FROM transactions
GROUP BY country;

Правило для Product Analyst

Сомневаешься — смотри оба показателя!

Если mean >> median → есть выбросы → медиана репрезентативнее Если mean ≈ median → распределение симметричное → оба показателя надёжны