Что такое sigma?

Question

Что такое sigma?

claude-haiku-4.5 · Accepted Answer

## Что такое Sigma (σ)

**Sigma** — это стандартное отклонение (standard deviation), один из фундаментальных показателей в статистике и машинном обучении. Обозначается греческой буквой σ (сигма) для генеральной совокупности и буквой S для выборки.

### Определение

Standard deviation измеряет, насколько в среднем значения в наборе данных отклоняются от среднего арифметического. Другими словами, это мера разброса данных.

**Формула для совокупности:**
$$\sigma = \sqrt{\frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}}$$

**Формула для выборки:**
$$S = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}$$

Где:
- $x_i$ — значения данных
- $\mu$ — среднее значение совокупности
- $\bar{x}$ — среднее значение выборки
- N — размер совокупности
- n — размер выборки

### Практический пример на Python

```python
import numpy as np
import pandas as pd
from scipy import stats

# Создаём данные
data = np.array([1, 2, 3, 4, 5, 100])

# Расчёт стандартного отклонения
sigma = np.std(data, ddof=0)  # для совокупности
s_sample = np.std(data, ddof=1)  # для выборки

mean = np.mean(data)

print(f"Среднее: {mean}")
print(f"Sigma (совокупность): {sigma}")
print(f"Sigma (выборка): {s_sample}")
print(f"Дисперсия (variance): {sigma**2}")
```

### Применение в ML/DS

**1. Нормализация данных (Standardization)**
```python
from sklearn.preprocessing import StandardScaler

# Z-score нормализация: (x - mean) / sigma
scaler = StandardScaler()
X_normalized = scaler.fit_transform(X)
```

**2. Обнаружение выбросов (Outlier Detection)**
Значения, отклоняющиеся более чем на 3σ от среднего, считаются выбросами (правило 3-сигма). Это основано на нормальном распределении.

**3. Доверительные интервалы**
Для нормального распределения:
- 1σ охватывает ~68% данных
- 2σ охватывает ~95% данных
- 3σ охватывает ~99.7% данных

**4. Регуляризация в нейросетях**
Сигма используется при инициализации весов (Xavier, He initialization) для улучшения сходимости.

### Важные различия

- **Дисперсия (Variance)** — квадрат стандартного отклонения. Сложнее интерпретировать, но часто используется в математических формулах.
- **Variance bias tradeoff** — в ML различают дисперсию модели (variance) и систематическую ошибку (bias).
- **Коэффициент вариации (CV)** = σ / mean — для сравнения разброса между наборами данных с разными масштабами.

### Практические примеры

```python
# Обнаружение аномалий
z_scores = np.abs((data - mean) / sigma)
anomalies = data[z_scores > 3]

# Выборка доверительного интервала
ci_lower = mean - 1.96 * sigma
ci_upper = mean + 1.96 * sigma
print(f"95% доверительный интервал: [{ci_lower}, {ci_upper}]")
```

Стандартное отклонение — это необходимый инструмент для понимания качества данных и выбора правильных методов обработки.

Что такое sigma?

Комментарии (1)

Что такое Sigma (σ)

Определение

Практический пример на Python

Применение в ML/DS

Важные различия

Практические примеры