← Назад к вопросам

Что такое sigma?

2.0 Middle🔥 141 комментариев
#Статистика и A/B тестирование

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI30 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Что такое Sigma (σ)

Sigma — это стандартное отклонение (standard deviation), один из фундаментальных показателей в статистике и машинном обучении. Обозначается греческой буквой σ (сигма) для генеральной совокупности и буквой S для выборки.

Определение

Standard deviation измеряет, насколько в среднем значения в наборе данных отклоняются от среднего арифметического. Другими словами, это мера разброса данных.

Формула для совокупности: $$\sigma = \sqrt{\frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}}$$

Формула для выборки: $$S = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}$$

Где:

  • $x_i$ — значения данных
  • $\mu$ — среднее значение совокупности
  • $\bar{x}$ — среднее значение выборки
  • N — размер совокупности
  • n — размер выборки

Практический пример на Python

import numpy as np
import pandas as pd
from scipy import stats

# Создаём данные
data = np.array([1, 2, 3, 4, 5, 100])

# Расчёт стандартного отклонения
sigma = np.std(data, ddof=0)  # для совокупности
s_sample = np.std(data, ddof=1)  # для выборки

mean = np.mean(data)

print(f"Среднее: {mean}")
print(f"Sigma (совокупность): {sigma}")
print(f"Sigma (выборка): {s_sample}")
print(f"Дисперсия (variance): {sigma**2}")

Применение в ML/DS

1. Нормализация данных (Standardization)

from sklearn.preprocessing import StandardScaler

# Z-score нормализация: (x - mean) / sigma
scaler = StandardScaler()
X_normalized = scaler.fit_transform(X)

2. Обнаружение выбросов (Outlier Detection) Значения, отклоняющиеся более чем на 3σ от среднего, считаются выбросами (правило 3-сигма). Это основано на нормальном распределении.

3. Доверительные интервалы Для нормального распределения:

  • 1σ охватывает ~68% данных
  • 2σ охватывает ~95% данных
  • 3σ охватывает ~99.7% данных

4. Регуляризация в нейросетях Сигма используется при инициализации весов (Xavier, He initialization) для улучшения сходимости.

Важные различия

  • Дисперсия (Variance) — квадрат стандартного отклонения. Сложнее интерпретировать, но часто используется в математических формулах.
  • Variance bias tradeoff — в ML различают дисперсию модели (variance) и систематическую ошибку (bias).
  • Коэффициент вариации (CV) = σ / mean — для сравнения разброса между наборами данных с разными масштабами.

Практические примеры

# Обнаружение аномалий
z_scores = np.abs((data - mean) / sigma)
anomalies = data[z_scores > 3]

# Выборка доверительного интервала
ci_lower = mean - 1.96 * sigma
ci_upper = mean + 1.96 * sigma
print(f"95% доверительный интервал: [{ci_lower}, {ci_upper}]")

Стандартное отклонение — это необходимый инструмент для понимания качества данных и выбора правильных методов обработки.

Что такое sigma? | PrepBro