Почему данные приходят быстрее по индексу?

Question

claude-haiku-4.5 · Accepted Answer

## Почему данные приходят быстрее по индексу?

Это вопрос о производительности работы с базами данных. Индексы значительно ускоряют поиск данных благодаря особенности их организации на диске и в памяти.

### Как работает поиск БЕЗ индекса

Без индекса база данных выполняет **полное сканирование таблицы (Full Table Scan)**:

```sql
SELECT * FROM users WHERE id = 42;
```

Ваша база:
- Читает **КАЖДУЮ строку** с диска
- Проверяет условие (id == 42)
- Возвращает результат
- **Сложность: O(n)**, где n — количество строк

Если в таблице 1 миллион строк, придётся прочитать все 1 млн записей!

### Как работает поиск С индексом

**Индекс** — это специализированная структура данных (обычно **B-дерево**), которая хранит отсортированные значения и указатели на строки:

```
Индекс по id:
┌──────┬──────────────────┐
│ id   │ Указатель на row │
├──────┼──────────────────┤
│  1   │ address_0x1000   │
│  5   │ address_0x2000   │
│ 15   │ address_0x3000   │
│ 42   │ address_0x5000   │  ← Сразу находим!
│ 99   │ address_0x8000   │
└──────┴──────────────────┘
```

База:
- Использует **двоичный поиск** по индексу
- Напрямую переходит на нужную строку по адресу
- **Сложность: O(log n)**

### Сравнение производительности

| Количество строк | Full Scan (ms) | С индексом (ms) | Ускорение |
|------------------|---|---|---|
| 1 000 | 10 | 0.1 | **100x** |
| 1 000 000 | 10 000 | 1 | **10 000x** |
| 1 000 000 000 | 10 000 000 | 1.5 | **7 млн раз** |

### Структура B-дерева (реальный индекс)

```
             [42]
            /    \
        [15]      [99]
       /  \      /   \
     [1] [30] [75] [120]
```

- **Сбалансированное дерево** — все листья на одной глубине
- **Каждый уровень** = одно обращение к диску
- **Для 1 млн записей** нужно ≈ 20 обращений (log₂(1 млн) ≈ 20)

### Практические примеры

#### Без индекса
```java
// ❌ Медленно: полное сканирование
String query = "SELECT * FROM orders WHERE customer_id = ?";
// Проверит 1 000 000 строк
```

#### С индексом
```java
// ✅ Быстро: используется индекс
CREATE INDEX idx_customer_id ON orders(customer_id);
String query = "SELECT * FROM orders WHERE customer_id = ?";
// Найдёт за ~20 обращений к диску
```

### Составные индексы

```sql
-- Индекс по нескольким колонкам
CREATE INDEX idx_user_email_status ON users(email, status);

-- ✅ Быстро: используется индекс полностью
SELECT * FROM users WHERE email = test@example.com AND status = active;

-- ⚠️ Медленнее: использует только часть индекса
SELECT * FROM users WHERE status = active;

-- ❌ Не использует индекс
SELECT * FROM users WHERE status = active AND email LIKE %@example.com;
```

### Кэширование в памяти

Индексы часто хранятся в **буферном пуле** (RAM):

```
┌─────────────────────┐
│   Buffer Pool       │
│ (индекс в памяти)   │
│ Доступ: ~10 мкс     │
└─────────────────────┘
        ↓
┌─────────────────────┐
│   SSD/HDD диск      │
│ Доступ: ~1-10 мс    │
└─────────────────────┘
```

**В памяти индекс работает в 1000x быстрее!**

### Когда индекс помогает МАКСИМАЛЬНО

- **WHERE по уникальному полю** (PRIMARY KEY, UNIQUE)
- **JOIN по foreign key**
- **ORDER BY** и **GROUP BY**
- **Большие таблицы** (> 10k строк)

### Когда индекс НЕ помогает или вредит

```sql
-- ❌ Индекс не поможет
SELECT * FROM users WHERE LOWER(email) = test@example.com;
-- Функция LOWER() ломает индекс

-- ❌ Индекс не поможет
SELECT * FROM users WHERE id > 100;
-- Full Scan для большого диапазона быстрее

-- ❌ Индекс замедлит (overhead)
CREATE INDEX idx_is_active ON users(is_active);
-- На маленьких таблицах overhead > выигрыш
```

### Интеграция с Java/JDBC

```java
// Используй PreparedStatement + индекс
String query = "SELECT * FROM orders WHERE customer_id = ? AND status = ?";
PreparedStatement stmt = connection.prepareStatement(query);
stmt.setInt(1, 123);
stmt.setString(2, "completed");
ResultSet rs = stmt.executeQuery();  // Быстро благодаря индексу
```

### Вывод

**Индекс** — это торговля памятью на скорость. Структура B-дерева позволяет найти нужную строку за O(log n) вместо O(n). На больших таблицах это дают **ускорение в тысячи раз**!

Количество строк	Full Scan (ms)	С индексом (ms)	Ускорение
1 000	10	0.1	100x
1 000 000	10 000	1	10 000x
1 000 000 000	10 000 000	1.5	7 млн раз

Почему данные приходят быстрее по индексу?

Комментарии (1)

Почему данные приходят быстрее по индексу?

Как работает поиск БЕЗ индекса

Как работает поиск С индексом

Сравнение производительности

Структура B-дерева (реальный индекс)

Практические примеры

Без индекса

С индексом

Составные индексы

Кэширование в памяти

Когда индекс помогает МАКСИМАЛЬНО

Когда индекс НЕ помогает или вредит

Интеграция с Java/JDBC

Вывод