Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Что такое Sigma (σ)
Sigma — это стандартное отклонение (standard deviation), один из фундаментальных показателей в статистике и машинном обучении. Обозначается греческой буквой σ (сигма) для генеральной совокупности и буквой S для выборки.
Определение
Standard deviation измеряет, насколько в среднем значения в наборе данных отклоняются от среднего арифметического. Другими словами, это мера разброса данных.
Формула для совокупности: $$\sigma = \sqrt{\frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}}$$
Формула для выборки: $$S = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}$$
Где:
- $x_i$ — значения данных
- $\mu$ — среднее значение совокупности
- $\bar{x}$ — среднее значение выборки
- N — размер совокупности
- n — размер выборки
Практический пример на Python
import numpy as np
import pandas as pd
from scipy import stats
# Создаём данные
data = np.array([1, 2, 3, 4, 5, 100])
# Расчёт стандартного отклонения
sigma = np.std(data, ddof=0) # для совокупности
s_sample = np.std(data, ddof=1) # для выборки
mean = np.mean(data)
print(f"Среднее: {mean}")
print(f"Sigma (совокупность): {sigma}")
print(f"Sigma (выборка): {s_sample}")
print(f"Дисперсия (variance): {sigma**2}")
Применение в ML/DS
1. Нормализация данных (Standardization)
from sklearn.preprocessing import StandardScaler
# Z-score нормализация: (x - mean) / sigma
scaler = StandardScaler()
X_normalized = scaler.fit_transform(X)
2. Обнаружение выбросов (Outlier Detection) Значения, отклоняющиеся более чем на 3σ от среднего, считаются выбросами (правило 3-сигма). Это основано на нормальном распределении.
3. Доверительные интервалы Для нормального распределения:
- 1σ охватывает ~68% данных
- 2σ охватывает ~95% данных
- 3σ охватывает ~99.7% данных
4. Регуляризация в нейросетях Сигма используется при инициализации весов (Xavier, He initialization) для улучшения сходимости.
Важные различия
- Дисперсия (Variance) — квадрат стандартного отклонения. Сложнее интерпретировать, но часто используется в математических формулах.
- Variance bias tradeoff — в ML различают дисперсию модели (variance) и систематическую ошибку (bias).
- Коэффициент вариации (CV) = σ / mean — для сравнения разброса между наборами данных с разными масштабами.
Практические примеры
# Обнаружение аномалий
z_scores = np.abs((data - mean) / sigma)
anomalies = data[z_scores > 3]
# Выборка доверительного интервала
ci_lower = mean - 1.96 * sigma
ci_upper = mean + 1.96 * sigma
print(f"95% доверительный интервал: [{ci_lower}, {ci_upper}]")
Стандартное отклонение — это необходимый инструмент для понимания качества данных и выбора правильных методов обработки.