← Назад к вопросам
Какие знаешь методы генерации мета-признаков?
1.7 Middle🔥 251 комментариев
#Машинное обучение
Комментарии (1)
🐱
claude-haiku-4.5PrepBro AI29 мар. 2026 г.(ред.)
Ответ сгенерирован нейросетью и может содержать ошибки
Методы генерации мета-признаков в ML
Мета-признаки (meta-features) — это признаки, которые описывают характеристики самого датасета, и используются в автоматическом машинном обучении (AutoML) и Meta-Learning.
1. Статистические признаки
Простые статистики — базовый подход:
- Среднее, медиана, стандартное отклонение
- Минимум, максимум, размах (range)
- Асимметрия (skewness), эксцесс (kurtosis)
- Процентили (quartiles)
meta_features = {
'mean': df.mean(),
'std': df.std(),
'min': df.min(),
'max': df.max(),
'skewness': df.skew(),
'kurtosis': df.kurtosis()
}
2. Информационные признаки
- Энтропия — мера неопределённости распределения
- Коэффициент вариации — отношение std к mean
- Количество уникальных значений (cardinality)
- Доля пропущенных значений
3. Корреляционные признаки
- Средняя абсолютная корреляция с целевой переменной
- Среднее значение корреляции между признаками (multicollinearity)
- Спектральные признаки корреляционной матрицы
4. Ландшафтные признаки (Landscape Features)
Применяются в исследовании оптимизационного ландшафта:
- Gradient-based: наклон функции потерь в точке
- Hessian-based: кривизна в окрестности решения
- Local optima: количество локальных оптимумов
- Fitness distance correlation: корреляция между качеством и расстоянием от оптимума
Эти признаки показывают сложность задачи оптимизации.
5. Признаки сложности классификации
Для задач классификации:
- Overlapping: перекрытие классов в пространстве признаков
- Separability: линейная разделимость классов
- Класс-дисбаланс (imbalance ratio)
- Fisher discriminant ratio
- Friedman-Rafsky h-statistic
6. Признаки на основе моделей
- Производительность простых моделей (baseline accuracy, decision tree depth)
- Time to fit — время обучения базовых алгоритмов
- Feature importance из простых моделей (деревья, линейные)
7. Информация о структуре данных
- Количество признаков (dimensionality)
- Размер датасета (number of samples)
- Ratio samples/features — соотношение выборок к признакам
- Тип признаков: числовые, категориальные, смешанные
8. Признаки локальной структуры данных
- K-NN based: свойства k-ближайших соседей
- Hubness: есть ли hub точки, которые часто встречаются как соседи
- Local intrinsic dimensionality: локальная размерность в окрестности
9. Временные признаки (для временных рядов)
- Автокорреляция (ACF, PACF)
- Сезонность и её сила
- Стационарность (результаты тестов KPSS, ADF)
- Структура тренда
Применение мета-признаков
Meta-Learning: используются для предсказания лучшего алгоритма для новой задачи
AutoML: помогают выбрать гиперпараметры и преобразования
Algorithm Selection: выбор между Random Forest, SVM, Gradient Boosting
Мета-признаки критичны для AutoML систем, позволяя автоматически выбирать лучшие стратегии без необходимости пробовать все возможные комбинации.