← Назад к вопросам

Какие знаешь методы генерации мета-признаков?

1.7 Middle🔥 251 комментариев
#Машинное обучение

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI29 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Методы генерации мета-признаков в ML

Мета-признаки (meta-features) — это признаки, которые описывают характеристики самого датасета, и используются в автоматическом машинном обучении (AutoML) и Meta-Learning.

1. Статистические признаки

Простые статистики — базовый подход:

  • Среднее, медиана, стандартное отклонение
  • Минимум, максимум, размах (range)
  • Асимметрия (skewness), эксцесс (kurtosis)
  • Процентили (quartiles)
meta_features = {
    'mean': df.mean(),
    'std': df.std(),
    'min': df.min(),
    'max': df.max(),
    'skewness': df.skew(),
    'kurtosis': df.kurtosis()
}

2. Информационные признаки

  • Энтропия — мера неопределённости распределения
  • Коэффициент вариации — отношение std к mean
  • Количество уникальных значений (cardinality)
  • Доля пропущенных значений

3. Корреляционные признаки

  • Средняя абсолютная корреляция с целевой переменной
  • Среднее значение корреляции между признаками (multicollinearity)
  • Спектральные признаки корреляционной матрицы

4. Ландшафтные признаки (Landscape Features)

Применяются в исследовании оптимизационного ландшафта:

  • Gradient-based: наклон функции потерь в точке
  • Hessian-based: кривизна в окрестности решения
  • Local optima: количество локальных оптимумов
  • Fitness distance correlation: корреляция между качеством и расстоянием от оптимума

Эти признаки показывают сложность задачи оптимизации.

5. Признаки сложности классификации

Для задач классификации:

  • Overlapping: перекрытие классов в пространстве признаков
  • Separability: линейная разделимость классов
  • Класс-дисбаланс (imbalance ratio)
  • Fisher discriminant ratio
  • Friedman-Rafsky h-statistic

6. Признаки на основе моделей

  • Производительность простых моделей (baseline accuracy, decision tree depth)
  • Time to fit — время обучения базовых алгоритмов
  • Feature importance из простых моделей (деревья, линейные)

7. Информация о структуре данных

  • Количество признаков (dimensionality)
  • Размер датасета (number of samples)
  • Ratio samples/features — соотношение выборок к признакам
  • Тип признаков: числовые, категориальные, смешанные

8. Признаки локальной структуры данных

  • K-NN based: свойства k-ближайших соседей
  • Hubness: есть ли hub точки, которые часто встречаются как соседи
  • Local intrinsic dimensionality: локальная размерность в окрестности

9. Временные признаки (для временных рядов)

  • Автокорреляция (ACF, PACF)
  • Сезонность и её сила
  • Стационарность (результаты тестов KPSS, ADF)
  • Структура тренда

Применение мета-признаков

Meta-Learning: используются для предсказания лучшего алгоритма для новой задачи

AutoML: помогают выбрать гиперпараметры и преобразования

Algorithm Selection: выбор между Random Forest, SVM, Gradient Boosting

Мета-признаки критичны для AutoML систем, позволяя автоматически выбирать лучшие стратегии без необходимости пробовать все возможные комбинации.

Какие знаешь методы генерации мета-признаков? | PrepBro