Как нормализовать и стандартизировать признаки? В чём разница?

Question

claude-haiku-4.5 · Accepted Answer

## Нормализация и стандартизация признаков

Это два фундаментальных метода масштабирования признаков в машинном обучении, которые преобразуют данные для приведения их к сопоставимому масштабу. Несмотря на частое использование этих терминов как синонимов, они имеют существенные различия.

### Определения

**Стандартизация (Standardization)** — это процесс преобразования данных так, чтобы они имели среднее значение (mean) = 0 и стандартное отклонение (std) = 1. Формула:

```python
z = (x - mean) / std
```

Этот метод часто называют **Z-score normalization**. Данные после стандартизации распределены примерно нормально вокруг нуля.

**Нормализация (Normalization)** — это масштабирование признаков в диапазон [0, 1] или [-1, 1]. Самый распространённый метод — **Min-Max scaling**:

```python
x_normalized = (x - min) / (max - min)
```

Результат находится в диапазоне [0, 1].

### Ключевые различия

| Аспект | Стандартизация | Нормализация |
|--------|---------------|---------------|
| **Диапазон** | (-∞, +∞) | [0, 1] |
| **Среднее значение** | 0 | Зависит от данных |
| **Стд. отклонение** | 1 | Зависит от данных |
| **Формула** | (x - mean) / std | (x - min) / (max - min) |
| **Чувствительность к выбросам** | Средняя | Высокая |
| **Когда использовать** | Большинство алгоритмов | Когда нужен фиксированный диапазон |

### Когда что использовать?

**Используй стандартизацию для:**
- Алгоритмов, основанных на расстояниях (KNN, K-means)
- Методов с регуляризацией (Ridge, Lasso, Elastic Net)
- Нейронных сетей
- PCA
- Линейной и логистической регрессии (важно для интерпретации коэффициентов)

**Используй нормализацию для:**
- Алгоритмов, чувствительных к масштабу признаков (SVM с RBF ядром)
- Когда нужен интуитивный диапазон [0, 1]
- Нейронных сетей с активациями типа sigmoid/tanh
- Когда выбросы могут сильно исказить данные

### Практические примеры

```python
import numpy as np
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Исходные данные
X = np.array([[1, 100],
              [2, 200],
              [3, 300],
              [4, 400]])

# Стандартизация
scaler_std = StandardScaler()
X_standardized = scaler_std.fit_transform(X)
print("Стандартизированные данные:")
print(X_standardized)
print(f"Mean: {X_standardized.mean(axis=0)}")
print(f"Std: {X_standardized.std(axis=0)}")

# Нормализация
scaler_norm = MinMaxScaler()
X_normalized = scaler_norm.fit_transform(X)
print("
Нормализированные данные:")
print(X_normalized)
print(f"Min: {X_normalized.min(axis=0)}")
print(f"Max: {X_normalized.max(axis=0)}")
```

### Важные замечания

1. **Fit на тренировочных данных**: Масштабирование должно быть обучено только на тренировочном наборе, затем применено к тестовому. Это избегает data leakage.

```python
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)  # Fit + Transform
X_test_scaled = scaler.transform(X_test)         # Только Transform!
```

2. **Выбросы**: Стандартизация более устойчива к выбросам, чем нормализация, потому что не использует абсолютные минимум/максимум.

3. **Дерево-подобные алгоритмы**: Random Forest, XGBoost, Decision Trees НЕ требуют масштабирования, так как они инвариантны к монотонным трансформациям.

4. **Категориальные признаки**: Масштабирование применяется ТОЛЬКО к числовым признакам.

Выбор между нормализацией и стандартизацией — это критическое решение, влияющее на производительность модели. Рекомендую всегда экспериментировать с обоими подходами и сравнивать результаты.

Аспект	Стандартизация	Нормализация
Диапазон	(-∞, +∞)	[0, 1]
Среднее значение	0	Зависит от данных
Стд. отклонение	1	Зависит от данных
Формула	(x - mean) / std	(x - min) / (max - min)
Чувствительность к выбросам	Средняя	Высокая
Когда использовать	Большинство алгоритмов	Когда нужен фиксированный диапазон

Как нормализовать и стандартизировать признаки? В чём разница?

Комментарии (1)

Нормализация и стандартизация признаков

Определения

Ключевые различия

Когда что использовать?

Практические примеры

Важные замечания