Выборочный максимум будет смещенной оценкой или нет?

Question

claude-haiku-4.5 · Accepted Answer

## Выборочный максимум: смещённая ли это оценка?

Да, выборочный максимум — это **смещённая оценка** истинного максимума (максимума генеральной совокупности). Это классический пример из теории статистики, демонстрирующий важность поправок.

### Определение и интуиция

**Что такое выборочный максимум?**
```
X_max = max(x₁, x₂, ..., xₙ)
```

Это просто наибольшее значение в выборке.

**Почему он смещён?**

Когда мы берём выборку из генеральной совокупности:
1. Максимум генеральной совокупности неизвестен
2. Выборочный максимум ВСЕГДА ≤ истинному максимуму
3. Выборочный максимум всегда смещён ВНИЗ
4. Математически: E[X_max] < θ (где θ — истинный максимум)

### Математическое доказательство

**Для Uniform распределения на [0, θ]:**

Если данные распределены равномерно на интервале [0, θ], то ожидаемое значение выборочного максимума:

```
E[X_max] = n*θ / (n+1)
```

**Пример численно:**
```
Истинный максимум θ = 100

При n = 1:   E[X_max] = 1*100/(1+1) = 50
При n = 10:  E[X_max] = 10*100/(10+1) ≈ 90.9
При n = 100: E[X_max] = 100*100/(100+1) ≈ 99.0
При n = 1000: E[X_max] = 1000*100/(1000+1) ≈ 99.9
```

**Видно, что всегда E[X_max] < 100!**

### Смещение (Bias)

**Bias формула:**
```
Bias(X_max) = E[X_max] - θ = (n*θ/(n+1)) - θ = -θ/(n+1)
```

**В нашем примере:**
```
При n = 10:  Bias = -100/11 ≈ -9.1  (недооценка на 9.1%)
При n = 100: Bias = -100/101 ≈ -1.0 (недооценка на 1%)
```

### Несмещённая оценка

**Чтобы получить несмещённую оценку, нужна коррекция:**

```
X_max_unbiased = ((n+1)/n) * X_max
```

**Или более точно:**
```
X̃_max = (n+1)/n * max(x₁, x₂, ..., xₙ)
```

**Проверка:**
```
E[X̃_max] = E[((n+1)/n) * X_max]
          = (n+1)/n * E[X_max]
          = (n+1)/n * (n*θ/(n+1))
          = θ ✓ (несмещено!)
```

### Практический пример

**Задача:** Оценить максимальный возраст посетителей сайта из выборки 50 пользователей.

**Данные:** Максимальный возраст в выборке = 72 года

**Смещённая оценка (неправильно):**
```
Оценка максимума = 72
Это, вероятно, НЕДООЦЕНИВАЕТ истинный максимум
```

**Несмещённая оценка (правильно):**
```
X̃_max = (50+1)/50 * 72 = (51/50) * 72 ≈ 73.44
Это лучшая оценка истинного максимума
```

### Python демонстрация

```python
import numpy as np
import matplotlib.pyplot as plt

# Генерируем данные из Uniform[0, 100]
np.random.seed(42)
true_max = 100
samples_list = [5, 10, 20, 50, 100, 200]

results = []

for n in samples_list:
    # Проводим 10000 экспериментов
    sample_maxes = []
    
    for _ in range(10000):
        sample = np.random.uniform(0, true_max, n)
        sample_maxes.append(np.max(sample))
    
    sample_maxes = np.array(sample_maxes)
    
    # Смещённая оценка (без коррекции)
    biased_estimate = np.mean(sample_maxes)
    
    # Несмещённая оценка
    unbiased_estimate = np.mean(sample_maxes * (n + 1) / n)
    
    bias = biased_estimate - true_max
    
    results.append({
        'n': n,
        'biased': biased_estimate,
        'unbiased': unbiased_estimate,
        'bias': bias,
        'bias_pct': (bias / true_max) * 100
    })
    
    print(f'n={n:3d}: Смещённая={biased_estimate:.1f}, '
          f'Несмещённая={unbiased_estimate:.1f}, '
          f'Bias={bias:.1f} ({bias/true_max*100:.1f}%)')

# Истинный максимум для всех: 100
```

### Диаграмма смещения

```
От выборки (n)           Смещение
═════════════════════════════════════
Стремится ↓ к 0         Смещение ↓ к 0
           ↓                     ↓
n = 1     -50%           E[X_max] = 50
n = 10    -9.1%          E[X_max] ≈ 91
n = 100   -1.0%          E[X_max] ≈ 99
n = 1000  -0.1%          E[X_max] ≈ 99.9
```

### Почему это важно?

**В реальных задачах:**

1. **Оценка диапазонов данных**
   - Если нужна оценка максимального значения
   - Например, максимальное давление в системе

2. **Управление рисками**
   - Планирование мощностей (максимальная нагрузка)
   - Использование неправильной оценки может привести к недостаточному резерву

3. **Контроль качества**
   - Определение максимально допустимого значения
   - Выборочный максимум даст заниженную оценку

### Другие смещённые оценки

- **Выборочный минимум** — тоже смещён (в сторону вверх)
- **Выборочный размах** — смещён вниз
- **Стандартное отклонение** — смещено (нужна поправка для малых выборок)

### Практический совет

**Всегда спрашивай себя:**
- Нужна ли мне несмещённая оценка?
- Насколько большая выборка у меня есть?
- Какова критичность смещения для моей задачи?

**При работе с максимумом/минимумом:**
```python
# Неправильно (смещено)
max_value = np.max(data)

# Правильно (несмещено)
max_value_unbiased = np.max(data) * (len(data) + 1) / len(data)
```

### Ключевой вывод

**Да, выборочный максимум — это СМЕЩЁННАЯ оценка.**

- E[X_max] < θ (всегда меньше истинного максимума)
- Смещение = -θ/(n+1)
- Несмещённая оценка: ((n+1)/n) * X_max
- Смещение уменьшается с увеличением размера выборки (как 1/n)

Это классический пример из статистики, показывающий, почему важно внимательно выбирать оценки параметров.

Выборочный максимум будет смещенной оценкой или нет?

Комментарии (1)

Выборочный максимум: смещённая ли это оценка?

Определение и интуиция

Математическое доказательство

Смещение (Bias)

Несмещённая оценка

Практический пример

Python демонстрация

Диаграмма смещения

Почему это важно?

Другие смещённые оценки

Практический совет

Ключевой вывод