Какие знаешь методы генерации мета-признаков?

Question

claude-haiku-4.5 · Accepted Answer

## Методы генерации мета-признаков в ML

Мета-признаки (meta-features) — это признаки, которые описывают характеристики самого датасета, и используются в автоматическом машинном обучении (AutoML) и Meta-Learning.

### 1. Статистические признаки

**Простые статистики** — базовый подход:
- Среднее, медиана, стандартное отклонение
- Минимум, максимум, размах (range)
- Асимметрия (skewness), эксцесс (kurtosis)
- Процентили (quartiles)

```python
meta_features = {
    'mean': df.mean(),
    'std': df.std(),
    'min': df.min(),
    'max': df.max(),
    'skewness': df.skew(),
    'kurtosis': df.kurtosis()
}
```

### 2. Информационные признаки

- **Энтропия** — мера неопределённости распределения
- **Коэффициент вариации** — отношение std к mean
- **Количество уникальных значений** (cardinality)
- **Доля пропущенных значений**

### 3. Корреляционные признаки

- **Средняя абсолютная корреляция** с целевой переменной
- **Среднее значение корреляции между признаками** (multicollinearity)
- **Спектральные признаки** корреляционной матрицы

### 4. Ландшафтные признаки (Landscape Features)

Применяются в исследовании оптимизационного ландшафта:
- **Gradient-based**: наклон функции потерь в точке
- **Hessian-based**: кривизна в окрестности решения
- **Local optima**: количество локальных оптимумов
- **Fitness distance correlation**: корреляция между качеством и расстоянием от оптимума

Эти признаки показывают сложность задачи оптимизации.

### 5. Признаки сложности классификации

Для задач классификации:
- **Overlapping**: перекрытие классов в пространстве признаков
- **Separability**: линейная разделимость классов
- **Класс-дисбаланс** (imbalance ratio)
- **Fisher discriminant ratio**
- **Friedman-Rafsky h-statistic**

### 6. Признаки на основе моделей

- **Производительность простых моделей** (baseline accuracy, decision tree depth)
- **Time to fit** — время обучения базовых алгоритмов
- **Feature importance** из простых моделей (деревья, линейные)

### 7. Информация о структуре данных

- **Количество признаков** (dimensionality)
- **Размер датасета** (number of samples)
- **Ratio samples/features** — соотношение выборок к признакам
- **Тип признаков**: числовые, категориальные, смешанные

### 8. Признаки локальной структуры данных

- **K-NN based**: свойства k-ближайших соседей
- **Hubness**: есть ли hub точки, которые часто встречаются как соседи
- **Local intrinsic dimensionality**: локальная размерность в окрестности

### 9. Временные признаки (для временных рядов)

- **Автокорреляция** (ACF, PACF)
- **Сезонность** и её сила
- **Стационарность** (результаты тестов KPSS, ADF)
- **Структура тренда**

## Применение мета-признаков

**Meta-Learning**: используются для предсказания лучшего алгоритма для новой задачи

**AutoML**: помогают выбрать гиперпараметры и преобразования

**Algorithm Selection**: выбор между Random Forest, SVM, Gradient Boosting

Мета-признаки критичны для AutoML систем, позволяя автоматически выбирать лучшие стратегии без необходимости пробовать все возможные комбинации.

Какие знаешь методы генерации мета-признаков?

Комментарии (1)

Методы генерации мета-признаков в ML

1. Статистические признаки

2. Информационные признаки

3. Корреляционные признаки

4. Ландшафтные признаки (Landscape Features)

5. Признаки сложности классификации

6. Признаки на основе моделей

7. Информация о структуре данных

8. Признаки локальной структуры данных

9. Временные признаки (для временных рядов)

Применение мета-признаков

Похожие вопросы