Что такое селективность в БД?

Question

deepseek-v3.2 · Accepted Answer

## Что такое селективность в БД?

**Селективность (Selectivity)** в базах данных — это ключевой концепт, используемый **оптимизатором запросов (Query Optimizer)** для оценки эффективности различных планов выполнения запроса. Она представляет собой **отношение количества строк, удовлетворяющих условию фильтрации (предикату), к общему количеству строк в таблице**. Значение селективности обычно находится в диапазоне от 0 до 1, где:
*   **0** — означает, что ни одна строка не удовлетворяет условию (очень высокий уровень фильтрации).
*   **1** — означает, что все строки удовлетворяют условию (очень низкий уровень фильтрации, например, отсутствие фильтра).

Проще говоря, селективность показывает, **"сколько данных" будет выбрано** из таблицы после применения WHERE, JOIN или другого условия. Например, предикат `WHERE country = 'Russia'` на таблице пользователей будет иметь высокую селективность, если только 5% пользователей из России, и низкую, если 90%.

### Почему селективность критически важна для оптимизатора?

Оптимизатор запросов использует **статистику по таблицам и индексам** (например, количество строк, распределение значений, количество уникальных значений) для расчета селективности предикатов. На основе этих расчетов он выбирает наиболее эффективный алгоритм и порядок операций:

*   **Выбор метода доступа к данным:** Для условия с **высокой селективностью** (мало строк) часто оптимально использовать **индекс (Index Scan/Seek)**. Для условия с **низкой селективностью** (много строк) полное сканирование таблицы **(Full Table Scan)** может быть быстрее, чем множественные чтения через индекс.
*   **Определение порядка JOIN:** Оптимизатор стремится выполнить сначала JOIN с самой высокой селективностью, чтобы уменьшить размер промежуточных результатов (картежей) и снизить нагрузку на последующие операции.
*   **Выбор типа JOIN:** Например, для соединения большой и маленькой таблицы при высокой селективности на маленькой может быть эффективен **Hash Join**, а при низкой — **Merge Join**.

### Пример оценки селективности

Предположим, у нас есть таблица `users` со статистикой:

```sql
-- Таблица users: 1,000,000 строк
-- Колонка `is_active`: Булево значение. Статистика показывает:
--   is_active = TRUE: 800,000 строк
--   is_active = FALSE: 200,000 строк
```

Рассчитаем селективность для двух предикатов:

1.  **WHERE is_active = TRUE**
    *   Селективность = `800,000 / 1,000,000 = 0.8` (низкая, выбирается большая часть данных).
2.  **WHERE is_active = FALSE**
    *   Селективность = `200,000 / 1,000,000 = 0.2` (высокая, выбирается меньшая часть данных).

На основе этих значений оптимизатор, скорее всего:
*   Для `is_active = FALSE` (селективность 0.2) — выберет **индексный поиск** (Index Seek), если существует индекс на `is_active`.
*   Для `is_active = TRUE` (селективность 0.8) — может предпочесть **полное сканирование таблицы**, так как индексный поиск потребует обращения к большому количеству страниц данных, что может быть менее эффективно.

### Как селективность связана с индексами и статистикой?

*   **Индексы** наиболее эффективны для колонок с **высокой селективностью** (например, уникальные ключи, колонки с множеством уникальных значений). Индекс на колонке с низкой селективностью (например, булево поле, где 90% значений `TRUE`) может редко использоваться или даже замедлять работу из-за накладных расходов на его поддержку.
*   **Статистика** по таблицам (хранит информацию о распределении данных) позволяет оптимизатору **делать точные оценки селективности**. Неактуальная или отсутствующая статистика приводит к неправильным расчетам селективности и, как следствие, к выбору неэффективных планов запросов (например, использование индекса там, где сканирование таблицы было бы лучше).

### Практическое влияние на разработку и администрирование

1.  **Дизайн индексов:** Создавайте индексы прежде всего для колонок, участвующих в условиях с высокой селективностью. Для колонок с очень низкой селективностью индекс может быть бесполезен.
2.  **Сбор статистики:** Регулярно обновляйте статистику (например, с помощью `ANALYZE` в PostgreSQL или автоматических задач в SQL Server), особенно после больших операций вставки/удаления. Это обеспечивает точность оценок оптимизатора.
3.  **Анализ планов запросов:** При диагностике медленных запросов всегда изучайте **план выполнения (Execution Plan)**. Обращайте внимание на оценки количества строк (Estimated Number of Rows) от оптимизатора и сравнивайте их с реальным количеством (Actual Number of Rrows). Большая разница часто указывает на проблему с статистикой и некорректной оценкой селективности.
4.  **Написание запросов:** Формулируйте условия WHERE таким образом, чтобы повысить селективность на ранних этапах выполнения запроса. Например, фильтруйте по самым специфичным колонкам сначала.

### Вывод

**Селективность** — это фундаментальный показатель, который напрямую влияет на производительность запросов. Понимание этого концепта позволяет:
*   **Разработчикам** писать более эффективные запросы и правильно выбирать колонки для индексов.
*   **Администраторам БД** поддерживать здоровье системы через управление статистикой.
*   **Оптимизатору запросов** принимать обоснованные решения, минимизирующие время и ресурсы на выполнение операций.

Таким образом, работа с селективностью является краеугольным камнем в настройке и оптимизации работы любой реляционной базы данных.

Что такое селективность в БД?

Комментарии (1)

Что такое селективность в БД?

Почему селективность критически важна для оптимизатора?

Пример оценки селективности

Как селективность связана с индексами и статистикой?

Практическое влияние на разработку и администрирование

Вывод