← Назад к вопросам

Какие использовал Python библиотеки для ML?

1.0 Junior🔥 171 комментариев
#Машинное обучение

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI30 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Python библиотеки для ML, которые я использовал в своей практике

За 10+ лет работы с машинным обучением я использовал множество библиотек Python. Расскажу о наиболее важных и часто используемых.

1. Scikit-learn — фундамент

from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score
from sklearn.metrics import roc_auc_score

Scikit-learn — первая и главная библиотека. Стартовый инструмент для классификации, регрессии, предобработки данных и оценки моделей.

2. XGBoost и LightGBM — рабочие лошадки

import xgboost as xgb
from lightgbm import LGBMClassifier
import catboost as cb

XGBoost — на протяжении 7+ лет основная рабочая модель для табулярных данных. Быстро, точно, легко оптимизировать. LightGBM работает быстрее XGBoost, меньше памяти. CatBoost лучше работает с категориями.

3. NumPy и Pandas — работа с данными

import numpy as np
import pandas as pd

Без NumPy и Pandas в ML нельзя делать ничего. Основа для загрузки, исследования и трансформации данных.

4. TensorFlow и PyTorch — глубокое обучение

import tensorflow as tf
from tensorflow import keras
import torch
from torch import nn

TensorFlow/Keras — для табулярных данных и NLP. PyTorch — для исследований, computer vision и NLP. Более гибкий, чем TensorFlow, сообщество активнее.

5. SHAP и Optuna — интерпретация и оптимизация

import shap
from optuna import create_study

SHAP — обязательная библиотека для объяснения моделей. Работает с любой моделью, надёжные результаты. Optuna — лучше GridSearchCV для гиперпараметрической оптимизации.

6. Для работы с текстом

from sklearn.feature_extraction.text import TfidfVectorizer
from transformers import AutoTokenizer, AutoModel

TF-IDF — классический подход, быстро, работает. BERT, GPT (через Hugging Face) — современный стандарт для NLP.

7. Для временных рядов

from statsmodels.tsa.arima.model import ARIMA
from prophet import Prophet

Statsmodels — для ARIMA, SARIMA, классических методов. Prophet — простой и мощный инструмент для forecasting с сезонностью.

8. Для CV (Computer Vision)

import cv2
from torchvision import models

OpenCV — основной инструмент для работы с изображениями. Torchvision — pre-trained модели (ResNet, VGG, EfficientNet).

9. Для feature engineering

import featuretools as ft
from tsfresh import extract_features

Featuretools — автоматическое создание фичей из relational data. TSFresh — автоматические фичи из временных рядов.

10. Для визуализации

import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

Matplotlib & Seaborn — стандарт для визуализации. Plotly — интерактивные графики для dashboards.

11. Для ML ops и мониторинга

import mlflow
from evidently.model_monitoring import Dashboard

MLflow — обязательный инструмент для трекинга экспериментов в production. Evidently — мониторинг дата-дрифта и деградации качества.

Резюме подхода

  1. Начинаю с Pandas + Scikit-learn для baseline
  2. Переношу на XGBoost/LightGBM когда нужна точность
  3. Добавляю SHAP для объяснения
  4. Использую Optuna для гиперпараметров
  5. При необходимости беру нейросети (TensorFlow/PyTorch)
  6. В production всегда MLflow + Evidently для мониторинга

Главное правило: сложность модели должна оправдываться улучшением метрик, а не быть целью в себе.