Чем отличается шардирование от партицирования?

Question

claude-haiku-4.5 · Accepted Answer

## Шардирование vs Партицирование

### Определения

**Партицирование** — это разделение одной таблицы на несколько физических частей (**партиций**) внутри одной базы данных на одном сервере. Данные распределяются по партициям на основе диапазонов значений (например, по датам или ID).

**Шардирование** — это горизонтальное масштабирование данных **через несколько отдельных серверов/баз данных**. Каждый шард содержит подмножество данных, и маршрутизация запроса определяет, на каком шарде находятся нужные данные.

### Уровень реализации

Партицирование — это **внутренняя оптимизация базы данных**, прозрачная для приложения. СУБД сама управляет распределением данных и объединением результатов запросов.

Шардирование — это **архитектурное решение**, требующее логики в приложении или прокси-слое для маршрутизации запросов на нужный шард.

### Масштабируемость

Партицирование улучшает производительность и управление на **одном сервере**: быстрее поиск (база знает в какой партиции искать), быстрее удаление старых партиций (DROP PARTITION вместо DELETE), лучше кэширование.

Шардирование позволяет линейно масштабировать данные и нагрузку через несколько серверов. Если каждый шард может обработать 1 млн записей, 10 шардов смогут обработать 10 млн.

### Пример: E-commerce платформа

**Партицирование:**

```sql
-- Одна таблица на одном сервере, разделена по датам
CREATE TABLE orders (
    order_id BIGINT,
    user_id INT,
    created_at TIMESTAMP,
    amount DECIMAL
) PARTITION BY RANGE (YEAR(created_at)) (
    PARTITION p_2022 VALUES LESS THAN (2023),
    PARTITION p_2023 VALUES LESS THAN (2024),
    PARTITION p_2024 VALUES LESS THAN (2025)
);

-- Удаление старых данных дешево
ALTER TABLE orders DROP PARTITION p_2022;
```

**Шардирование:**

```python
# Приложение маршрутизирует запрос
def get_shard_id(user_id):
    return user_id % NUM_SHARDS  # user_id=5 -> shard 5 из 16

def insert_order(user_id, order_data):
    shard_id = get_shard_id(user_id)
    db_conn = connect_to_shard(shard_id)  # Подключение к правильному шарду
    db_conn.execute(
        "INSERT INTO orders (user_id, amount) VALUES (%s, %s)",
        (user_id, order_data[amount])
    )
```

### Консистентность и транзакции

Партицирование поддерживает **ACID транзакции** в пределах одной таблицы, так как физически они на одном сервере.

Шардирование затрудняет транзакции между шардами. Транзакция, затрагивающая несколько шардов, требует **distributed transactions** (2-phase commit), что снижает производительность и надёжность.

### Сложность управления

Партицирование управляется СУБД. DBA настраивает политику партицирования, остальное — работа БД.

Шардирование требует инструментов для:
- Маршрутизации запросов
- Репликации между шардами
- Ребалансировки данных при добавлении шардов
- Миграции шардов

Примеры инструментов: Vitess (MySQL), Citus (PostgreSQL), MongoDB Sharding.

### Когда использовать?

**Партицирование:**
- Таблица с миллионами-миллиардами строк, но данные в пределах одного сервера
- Высокое время query по неиндексированным полям
- Нужны операции массового удаления старых данных
- Полное использование возможностей ACID

**Шардирование:**
- Данные растут параллельно с пользователями (масштабирование нагрузки)
- Необходимо распределить write-нагрузку
- Данные геораспределены (sharding by region)
- Изоляция арендаторов (SaaS multi-tenancy)

### На практике

В реальных системах часто используют **оба подхода**: таблица **шардируется** по user_id между серверами, а каждый шард **партицируется** по датам для оптимизации.

Чем отличается шардирование от партицирования?

Комментарии (1)

Шардирование vs Партицирование

Определения

Уровень реализации

Масштабируемость

Пример: E-commerce платформа

Консистентность и транзакции

Сложность управления

Когда использовать?

На практике