Какое распределение ожидаешь получить при сборе значений зарплаты по России?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Распределение зарплат в России: анализ и практические свойства
При сборе данных о зарплатах по России следует ожидать сложное асимметричное распределение с тяжёлыми хвостами, которое существенно отличается от нормального распределения. Давайте разберём его характеристики и причины.
Ожидаемое распределение
Основные свойства:
-
Правосторонняя асимметрия (right-skewed)
- Мода < медиана < среднее
- Вероятность обнаружить очень высокие зарплаты выше, чем очень низкие
- Длинный правый хвост из-за высокооплачиваемых специалистов, руководителей, предпринимателей
-
Мультимодальность
- Главная мода: медианная региональная зарплата (~50-60 тысяч рублей)
- Вторая мода: зарплаты в Москве и Санкт-Петербурге (в 1.5-3 раза выше)
- Локальные пики: IT-специалисты, финансисты, инженеры
-
Тяжёлые хвосты (heavy-tailed distribution)
- Экстремальные значения встречаются чаще, чем при нормальном распределении
- Топ-менеджеры, олигархи создают правый хвост
- Часть безработных с нулевым доходом на левом хвосте
Почему логнормальное распределение?
Основные причины:
-
Мультипликативные эффекты: Зарплата — результат множественных факторов (опыт × квалификация × регион × область × сектор). По центральной предельной теореме произведение независимых случайных величин стремится к логнормальному распределению.
-
Положительная граница: Зарплата ≥ 0, что исключает нормальное распределение.
-
Асимметрия доходов: Матфеев принцип создаёт правый хвост.
-
Ограниченность минимума, неограниченность максимума: Минимальная зарплата ограничена, а максимум потенциально неограничен.
Проверка нормальности
from scipy.stats import shapiro, normaltest
import numpy as np
# Тест Шапиро-Уилка (для выборок < 5000)
shapiro_stat, shapiro_p = shapiro(salaries[:5000])
print(f"Shapiro-Wilk тест p-value: {shapiro_p:.2e}")
# p-value << 0.05 → распределение НЕ нормальное
# Тест D'Agostino-Pearson
k2_stat, k2_p = normaltest(salaries)
print(f"D'Agostino-Pearson тест p-value: {k2_p:.2e}")
Практические рекомендации
| Проблема | Решение |
|---|---|
| Асимметрия данных | Используй логарифмическое преобразование: log(salary) ≈ N |
| Выбросы в регрессии | Robust методы (Huber loss), Quantile regression |
| Нарушение предпосылок ANOVA | Используй медиану вместо среднего, тесты Манна-Уитни |
| Дисперсия пропорциональна среднему | Взвешенные методы, WLS (Weighted Least Squares) |
Стратификация при анализе
# Лучше анализировать по подгруппам
regions = {
"Moscow_SPb": moscow_salaries,
"Regional": regional_salaries,
"Top": top_salaries
}
for region, salaries in regions.items():
print(f"{region}: med={np.median(salaries):.0f}, mean={salaries.mean():.0f}")
Ключевой вывод: При анализе зарплат России необходимо использовать логарифмическое преобразование, robust методы, и учитывать региональную стратификацию. Классические параметрические методы (t-тест, линейная регрессия) без преобразований будут некорректны.