Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Что такое pandas?
Pandas — это фундаментальная Python-библиотека для работы с данными, которая предоставляет высокоуровневые структуры данных и инструменты для анализа и манипуляции табличными данными. Это стандартный инструмент в арсенале любого Data Scientist.
Основные структуры данных
Series — одномерный массив с метками (индексами), похожий на столбец в таблице:
import pandas as pd
s = pd.Series([10, 20, 30, 40], index=["a", "b", "c", "d"])
print(s["a"]) # 10
DataFrame — двумерная таблица с метками строк и столбцов. Это основная структура, с которой работает большинство аналитиков:
df = pd.DataFrame({
"name": ["Alice", "Bob", "Charlie"],
"age": [25, 30, 35],
"salary": [50000, 60000, 75000]
})
Ключевые преимущества
- Удобство работы с пропусками — встроенная поддержка NaN и методы для их обработки (fillna, dropna)
- Гибкое индексирование — по позиции (iloc), по метке (loc) и условное индексирование
- Группировка и агрегация — метод groupby для сложных операций
- Интеграция с NumPy и Matplotlib — работает в единой экосистеме
- Чтение данных — встроенные функции read_csv, read_excel, read_sql
Типичные операции
# Загрузка данных
df = pd.read_csv("data.csv")
# Исследование
print(df.head()) # первые 5 строк
print(df.info()) # типы данных
print(df.describe()) # статистика
# Фильтрация
high_salary = df[df["salary"] > 60000]
# Группировка
by_dept = df.groupby("department")["salary"].mean()
# Объединение
merged = pd.merge(df1, df2, on="id", how="left")
Производительность
Хотя pandas удобен для работы с данными размером до гигабайта, для больших объёмов данных часто используют Dask или PySpark. Но для классического ML pipeline на 80% работы — pandas незаменим.
Я рекомендую освоить основные методы (select, filter, groupby, merge) и понимать сложность операций, чтобы писать эффективный код анализа данных.