Выборочный максимум будет смещенной оценкой или нет?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Выборочный максимум: смещённая ли это оценка?
Да, выборочный максимум — это смещённая оценка истинного максимума (максимума генеральной совокупности). Это классический пример из теории статистики, демонстрирующий важность поправок.
Определение и интуиция
Что такое выборочный максимум?
X_max = max(x₁, x₂, ..., xₙ)
Это просто наибольшее значение в выборке.
Почему он смещён?
Когда мы берём выборку из генеральной совокупности:
- Максимум генеральной совокупности неизвестен
- Выборочный максимум ВСЕГДА ≤ истинному максимуму
- Выборочный максимум всегда смещён ВНИЗ
- Математически: E[X_max] < θ (где θ — истинный максимум)
Математическое доказательство
Для Uniform распределения на [0, θ]:
Если данные распределены равномерно на интервале [0, θ], то ожидаемое значение выборочного максимума:
E[X_max] = n*θ / (n+1)
Пример численно:
Истинный максимум θ = 100
При n = 1: E[X_max] = 1*100/(1+1) = 50
При n = 10: E[X_max] = 10*100/(10+1) ≈ 90.9
При n = 100: E[X_max] = 100*100/(100+1) ≈ 99.0
При n = 1000: E[X_max] = 1000*100/(1000+1) ≈ 99.9
Видно, что всегда E[X_max] < 100!
Смещение (Bias)
Bias формула:
Bias(X_max) = E[X_max] - θ = (n*θ/(n+1)) - θ = -θ/(n+1)
В нашем примере:
При n = 10: Bias = -100/11 ≈ -9.1 (недооценка на 9.1%)
При n = 100: Bias = -100/101 ≈ -1.0 (недооценка на 1%)
Несмещённая оценка
Чтобы получить несмещённую оценку, нужна коррекция:
X_max_unbiased = ((n+1)/n) * X_max
Или более точно:
X̃_max = (n+1)/n * max(x₁, x₂, ..., xₙ)
Проверка:
E[X̃_max] = E[((n+1)/n) * X_max]
= (n+1)/n * E[X_max]
= (n+1)/n * (n*θ/(n+1))
= θ ✓ (несмещено!)
Практический пример
Задача: Оценить максимальный возраст посетителей сайта из выборки 50 пользователей.
Данные: Максимальный возраст в выборке = 72 года
Смещённая оценка (неправильно):
Оценка максимума = 72
Это, вероятно, НЕДООЦЕНИВАЕТ истинный максимум
Несмещённая оценка (правильно):
X̃_max = (50+1)/50 * 72 = (51/50) * 72 ≈ 73.44
Это лучшая оценка истинного максимума
Python демонстрация
import numpy as np
import matplotlib.pyplot as plt
# Генерируем данные из Uniform[0, 100]
np.random.seed(42)
true_max = 100
samples_list = [5, 10, 20, 50, 100, 200]
results = []
for n in samples_list:
# Проводим 10000 экспериментов
sample_maxes = []
for _ in range(10000):
sample = np.random.uniform(0, true_max, n)
sample_maxes.append(np.max(sample))
sample_maxes = np.array(sample_maxes)
# Смещённая оценка (без коррекции)
biased_estimate = np.mean(sample_maxes)
# Несмещённая оценка
unbiased_estimate = np.mean(sample_maxes * (n + 1) / n)
bias = biased_estimate - true_max
results.append({
'n': n,
'biased': biased_estimate,
'unbiased': unbiased_estimate,
'bias': bias,
'bias_pct': (bias / true_max) * 100
})
print(f'n={n:3d}: Смещённая={biased_estimate:.1f}, '
f'Несмещённая={unbiased_estimate:.1f}, '
f'Bias={bias:.1f} ({bias/true_max*100:.1f}%)')
# Истинный максимум для всех: 100
Диаграмма смещения
От выборки (n) Смещение
═════════════════════════════════════
Стремится ↓ к 0 Смещение ↓ к 0
↓ ↓
n = 1 -50% E[X_max] = 50
n = 10 -9.1% E[X_max] ≈ 91
n = 100 -1.0% E[X_max] ≈ 99
n = 1000 -0.1% E[X_max] ≈ 99.9
Почему это важно?
В реальных задачах:
-
Оценка диапазонов данных
- Если нужна оценка максимального значения
- Например, максимальное давление в системе
-
Управление рисками
- Планирование мощностей (максимальная нагрузка)
- Использование неправильной оценки может привести к недостаточному резерву
-
Контроль качества
- Определение максимально допустимого значения
- Выборочный максимум даст заниженную оценку
Другие смещённые оценки
- Выборочный минимум — тоже смещён (в сторону вверх)
- Выборочный размах — смещён вниз
- Стандартное отклонение — смещено (нужна поправка для малых выборок)
Практический совет
Всегда спрашивай себя:
- Нужна ли мне несмещённая оценка?
- Насколько большая выборка у меня есть?
- Какова критичность смещения для моей задачи?
При работе с максимумом/минимумом:
# Неправильно (смещено)
max_value = np.max(data)
# Правильно (несмещено)
max_value_unbiased = np.max(data) * (len(data) + 1) / len(data)
Ключевой вывод
Да, выборочный максимум — это СМЕЩЁННАЯ оценка.
- E[X_max] < θ (всегда меньше истинного максимума)
- Смещение = -θ/(n+1)
- Несмещённая оценка: ((n+1)/n) * X_max
- Смещение уменьшается с увеличением размера выборки (как 1/n)
Это классический пример из статистики, показывающий, почему важно внимательно выбирать оценки параметров.