Почему вычитание происходит именно в дисперсии?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Почему в дисперсии происходит вычитание
Это фундаментальный вопрос математической статистики, который раскрывает саму суть концепции дисперсии и её физический смысл. Давайте разберёмся пошагово.
Что такое дисперсия
Дисперсия — это мера разброса или вариативности данных вокруг среднего значения. Формула:
D(X) = E[(X - μ)²]
Где:
- X — случайная величина (наши данные)
- μ — математическое ожидание (среднее значение)
- E[...] — оператор ожидания (усреднение)
Давайте поймём, почему используется именно вычитание, а не что-то другое.
Проблема простого сумирования отклонений
Интуитивно мы можем подумать: «Давайте просто посчитаем, насколько каждое значение отклоняется от среднего и сложим эти отклонения»:
Отклонение = Σ(X - μ)
Но есть критическая проблема: отклонения выше среднего положительные, а ниже среднего — отрицательные. При суммировании они взаимно сокращаются!
Конкретный пример
Рассмотрим данные: 1, 5, 9 Среднее: μ = (1 + 5 + 9) / 3 = 5
Отклонения:
- 1 - 5 = -4
- 5 - 5 = 0
- 9 - 5 = +4
Сумма: -4 + 0 + 4 = 0
Получилась нулевая сумма, хотя данные явно имеют разброс! Это свойство математической: сумма отклонений от среднего ВСЕГДА равна нулю, независимо от разброса данных.
Решение: возведение в квадрат
Чтобы исключить взаимное сокращение положительных и отрицательных отклонений, используют квадрат отклонений:
D(X) = E[(X - μ)²]
Теперь все отклонения становятся положительными:
- (-4)² = 16
- 0² = 0
- (+4)² = 16
Сумма: 16 + 0 + 16 = 32 Дисперсия: D = 32 / 3 ≈ 10.67
Теперь мера разброса отражает реальный разброс данных!
Почему именно квадрат, а не абсолютное значение
Можно возразить: «А почему не использовать модуль (абсолютное значение)?»
Меда абсолютных отклонений = E[|X - μ|]
Это тоже работает и называется средним абсолютным отклонением (MAD). Однако дисперсия (с квадратом) предпочтительнее по нескольким причинам:
- Математические свойства: Квадрат намного удобнее в расчётах и доказательстве теорем
- Производные и оптимизация: Функция с квадратом дифференцируема везде, а модуль имеет "острую вершину"
- Центральная предельная теорема: Квадратичные отклонения связаны с нормальным распределением
- Метод наименьших квадратов: Самый распространённый способ оценки параметров основан именно на минимизации суммы квадратов
Математическое доказательство необходимости вычитания
Подумаем логически: дисперсия должна показывать, насколько данные отличаются от центра. Центр — это среднее значение. Поэтому мы обязательно вычитаем среднее из каждого значения:
Отклонение = X - μ
Это вычитание — суть определения разброса. Без него мы просто получим исходные значения, которые зависят от масштаба и сдвига данных, а не от их вариативности.
Дисперсия в Python
import numpy as np
data = [1, 5, 9]
mean = np.mean(data) # 5
# Вручную
deviances = [(x - mean)**2 for x in data] # [16, 0, 16]
variance = sum(deviances) / len(deviances) # 10.67
print(f"Дисперсия: {variance}")
print(f"numpy.var(): {np.var(data)}") # То же самое
Связь дисперсии и среднего квадратичного отклонения
Стандартное отклонение (σ) — это квадратный корень из дисперсии:
σ = √D(X)
Почему корень? Потому что мы возвели в квадрат, чтобы избежать сокращения отклонений. Теперь извлекаем корень, чтобы вернуться к исходной единице измерения.
Практическое значение в анализе
В Data Science дисперсия используется:
- Оценка качества данных: высокая дисперсия = данные сильно разбросаны
- Отбор признаков: признак с низкой дисперсией содержит мало информации
- Регрессия: дисперсия остатков показывает качество модели
- Управление рисками: дисперсия портфеля активов = мера риска
Итоговый ответ
Вычитание происходит в дисперсии потому, что:
- Нужно измерить отклонение каждого значения от среднего (вычитание)
- Простое суммирование отклонений даёт нуль (положительные и отрицательные сокращаются)
- Возведение в квадрат делает все отклонения положительными
- Усреднение квадратов отклонений даёт меру разброса
То есть вычитание среднего — это самая суть определения дисперсии, без него мы просто теряем информацию о вариативности данных.