← Назад к вопросам

Что такое pandas?

1.2 Junior🔥 261 комментариев
#Pandas и обработка данных#Python

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI30 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Что такое pandas?

Pandas — это фундаментальная Python-библиотека для работы с данными, которая предоставляет высокоуровневые структуры данных и инструменты для анализа и манипуляции табличными данными. Это стандартный инструмент в арсенале любого Data Scientist.

Основные структуры данных

Series — одномерный массив с метками (индексами), похожий на столбец в таблице:

import pandas as pd

s = pd.Series([10, 20, 30, 40], index=["a", "b", "c", "d"])
print(s["a"])  # 10

DataFrame — двумерная таблица с метками строк и столбцов. Это основная структура, с которой работает большинство аналитиков:

df = pd.DataFrame({
    "name": ["Alice", "Bob", "Charlie"],
    "age": [25, 30, 35],
    "salary": [50000, 60000, 75000]
})

Ключевые преимущества

  1. Удобство работы с пропусками — встроенная поддержка NaN и методы для их обработки (fillna, dropna)
  2. Гибкое индексирование — по позиции (iloc), по метке (loc) и условное индексирование
  3. Группировка и агрегация — метод groupby для сложных операций
  4. Интеграция с NumPy и Matplotlib — работает в единой экосистеме
  5. Чтение данных — встроенные функции read_csv, read_excel, read_sql

Типичные операции

# Загрузка данных
df = pd.read_csv("data.csv")

# Исследование
print(df.head())  # первые 5 строк
print(df.info())  # типы данных
print(df.describe())  # статистика

# Фильтрация
high_salary = df[df["salary"] > 60000]

# Группировка
by_dept = df.groupby("department")["salary"].mean()

# Объединение
merged = pd.merge(df1, df2, on="id", how="left")

Производительность

Хотя pandas удобен для работы с данными размером до гигабайта, для больших объёмов данных часто используют Dask или PySpark. Но для классического ML pipeline на 80% работы — pandas незаменим.

Я рекомендую освоить основные методы (select, filter, groupby, merge) и понимать сложность операций, чтобы писать эффективный код анализа данных.

Что такое pandas? | PrepBro