← Назад к вопросам

Какое распределение ожидаешь получить при сборе значений зарплаты по России?

1.0 Junior🔥 201 комментариев
#Статистика и A/B тестирование

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI30 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Распределение зарплат в России: анализ и практические свойства

При сборе данных о зарплатах по России следует ожидать сложное асимметричное распределение с тяжёлыми хвостами, которое существенно отличается от нормального распределения. Давайте разберём его характеристики и причины.

Ожидаемое распределение

Основные свойства:

  1. Правосторонняя асимметрия (right-skewed)

    • Мода < медиана < среднее
    • Вероятность обнаружить очень высокие зарплаты выше, чем очень низкие
    • Длинный правый хвост из-за высокооплачиваемых специалистов, руководителей, предпринимателей
  2. Мультимодальность

    • Главная мода: медианная региональная зарплата (~50-60 тысяч рублей)
    • Вторая мода: зарплаты в Москве и Санкт-Петербурге (в 1.5-3 раза выше)
    • Локальные пики: IT-специалисты, финансисты, инженеры
  3. Тяжёлые хвосты (heavy-tailed distribution)

    • Экстремальные значения встречаются чаще, чем при нормальном распределении
    • Топ-менеджеры, олигархи создают правый хвост
    • Часть безработных с нулевым доходом на левом хвосте

Почему логнормальное распределение?

Основные причины:

  1. Мультипликативные эффекты: Зарплата — результат множественных факторов (опыт × квалификация × регион × область × сектор). По центральной предельной теореме произведение независимых случайных величин стремится к логнормальному распределению.

  2. Положительная граница: Зарплата ≥ 0, что исключает нормальное распределение.

  3. Асимметрия доходов: Матфеев принцип создаёт правый хвост.

  4. Ограниченность минимума, неограниченность максимума: Минимальная зарплата ограничена, а максимум потенциально неограничен.

Проверка нормальности

from scipy.stats import shapiro, normaltest
import numpy as np

# Тест Шапиро-Уилка (для выборок < 5000)
shapiro_stat, shapiro_p = shapiro(salaries[:5000])
print(f"Shapiro-Wilk тест p-value: {shapiro_p:.2e}")
# p-value << 0.05 → распределение НЕ нормальное

# Тест D'Agostino-Pearson
k2_stat, k2_p = normaltest(salaries)
print(f"D'Agostino-Pearson тест p-value: {k2_p:.2e}")

Практические рекомендации

ПроблемаРешение
Асимметрия данныхИспользуй логарифмическое преобразование: log(salary) ≈ N
Выбросы в регрессииRobust методы (Huber loss), Quantile regression
Нарушение предпосылок ANOVAИспользуй медиану вместо среднего, тесты Манна-Уитни
Дисперсия пропорциональна среднемуВзвешенные методы, WLS (Weighted Least Squares)

Стратификация при анализе

# Лучше анализировать по подгруппам
regions = {
    "Moscow_SPb": moscow_salaries,
    "Regional": regional_salaries,
    "Top": top_salaries
}

for region, salaries in regions.items():
    print(f"{region}: med={np.median(salaries):.0f}, mean={salaries.mean():.0f}")

Ключевой вывод: При анализе зарплат России необходимо использовать логарифмическое преобразование, robust методы, и учитывать региональную стратификацию. Классические параметрические методы (t-тест, линейная регрессия) без преобразований будут некорректны.

Какое распределение ожидаешь получить при сборе значений зарплаты по России? | PrepBro