Какое распределение ожидаешь получить при сборе значений зарплаты по России?

Question

claude-haiku-4.5 · Accepted Answer

## Распределение зарплат в России: анализ и практические свойства

При сборе данных о зарплатах по России следует ожидать сложное асимметричное распределение с тяжёлыми хвостами, которое существенно отличается от нормального распределения. Давайте разберём его характеристики и причины.

### Ожидаемое распределение

**Основные свойства:**

1. **Правосторонняя асимметрия (right-skewed)**
   - Мода < медиана < среднее
   - Вероятность обнаружить очень высокие зарплаты выше, чем очень низкие
   - Длинный правый хвост из-за высокооплачиваемых специалистов, руководителей, предпринимателей

2. **Мультимодальность**
   - Главная мода: медианная региональная зарплата (~50-60 тысяч рублей)
   - Вторая мода: зарплаты в Москве и Санкт-Петербурге (в 1.5-3 раза выше)
   - Локальные пики: IT-специалисты, финансисты, инженеры

3. **Тяжёлые хвосты (heavy-tailed distribution)**
   - Экстремальные значения встречаются чаще, чем при нормальном распределении
   - Топ-менеджеры, олигархи создают правый хвост
   - Часть безработных с нулевым доходом на левом хвосте

### Почему логнормальное распределение?

**Основные причины:**

1. **Мультипликативные эффекты**: Зарплата — результат множественных факторов (опыт × квалификация × регион × область × сектор). По центральной предельной теореме произведение независимых случайных величин стремится к логнормальному распределению.

2. **Положительная граница**: Зарплата ≥ 0, что исключает нормальное распределение.

3. **Асимметрия доходов**: Матфеев принцип создаёт правый хвост.

4. **Ограниченность минимума, неограниченность максимума**: Минимальная зарплата ограничена, а максимум потенциально неограничен.

### Проверка нормальности

```python
from scipy.stats import shapiro, normaltest
import numpy as np

# Тест Шапиро-Уилка (для выборок < 5000)
shapiro_stat, shapiro_p = shapiro(salaries[:5000])
print(f"Shapiro-Wilk тест p-value: {shapiro_p:.2e}")
# p-value << 0.05 → распределение НЕ нормальное

# Тест D'Agostino-Pearson
k2_stat, k2_p = normaltest(salaries)
print(f"D'Agostino-Pearson тест p-value: {k2_p:.2e}")
```

### Практические рекомендации

| Проблема | Решение |
|----------|--------|
| Асимметрия данных | Используй логарифмическое преобразование: log(salary) ≈ N |
| Выбросы в регрессии | Robust методы (Huber loss), Quantile regression |
| Нарушение предпосылок ANOVA | Используй медиану вместо среднего, тесты Манна-Уитни |
| Дисперсия пропорциональна среднему | Взвешенные методы, WLS (Weighted Least Squares) |

### Стратификация при анализе

```python
# Лучше анализировать по подгруппам
regions = {
    "Moscow_SPb": moscow_salaries,
    "Regional": regional_salaries,
    "Top": top_salaries
}

for region, salaries in regions.items():
    print(f"{region}: med={np.median(salaries):.0f}, mean={salaries.mean():.0f}")
```

**Ключевой вывод**: При анализе зарплат России необходимо использовать логарифмическое преобразование, robust методы, и учитывать региональную стратификацию. Классические параметрические методы (t-тест, линейная регрессия) без преобразований будут некорректны.

Проблема	Решение
Асимметрия данных	Используй логарифмическое преобразование: log(salary) ≈ N
Выбросы в регрессии	Robust методы (Huber loss), Quantile regression
Нарушение предпосылок ANOVA	Используй медиану вместо среднего, тесты Манна-Уитни
Дисперсия пропорциональна среднему	Взвешенные методы, WLS (Weighted Least Squares)

Какое распределение ожидаешь получить при сборе значений зарплаты по России?

Комментарии (1)

Распределение зарплат в России: анализ и практические свойства

Ожидаемое распределение

Почему логнормальное распределение?

Проверка нормальности

Практические рекомендации

Стратификация при анализе