Что такое полнотекстовый поиск?

Question

claude-haiku-4.5 · Accepted Answer

## Полнотекстовый поиск

**Полнотекстовый поиск** (Full-Text Search, FTS) — это специализированная техника поиска в больших текстовых документах или базах данных, которая позволяет находить документы по **отдельным словам или фразам**, а не по точному совпадению всей строки.

### Основное отличие от обычного LIKE

```python
import sqlite3

conn = sqlite3.connect(':memory:')
cursor = conn.cursor()

cursor.execute('''
    CREATE TABLE articles (
        id INTEGER PRIMARY KEY,
        title TEXT,
        content TEXT
    )
''')

cursor.executemany('INSERT INTO articles VALUES (?, ?, ?)', [
    (1, 'Python Programming', 'Learn Python basics and advanced concepts'),
    (2, 'Web Development', 'Build websites with Django and Flask'),
    (3, 'Data Science', 'Python for data analysis and machine learning'),
])
conn.commit()

# 1. Обычный LIKE — ищет по строке целиком (медленно)
print("LIKE поиск:")
result = cursor.execute(
    "SELECT * FROM articles WHERE content LIKE '%Python%'"
).fetchall()
for row in result:
    print(row)

# 2. Полнотекстовый поиск — быстрее и умнее
print("
Полнотекстовый поиск (нужна индексация):")
```

### Как работает FTS

**1. Индексирование текста**
- Текст разбивается на **токены** (слова)
- Убираются стоп-слова (и, или, а, the, a)
- Применяется **стемминг** (приведение к корню: "программирование" → "программ")
- Создаётся обратный индекс: слово → список документов

**2. Поиск**
- Запрос также разбивается на токены
- Ищются совпадения в индексе (очень быстро)
- Результаты ранжируются по релевантности

### SQLite FTS5

```python
import sqlite3

conn = sqlite3.connect(':memory:')
cursor = conn.cursor()

# Создаём таблицу с полнотекстовым поиском
cursor.execute('''
    CREATE VIRTUAL TABLE articles_fts USING fts5(
        title,
        content,
        content='articles',
        content_rowid='id'
    )
''')

# Заполняем индекс
cursor.executemany(
    'INSERT INTO articles_fts(rowid, title, content) VALUES (?, ?, ?)',
    [
        (1, 'Python Programming', 'Learn Python basics and advanced concepts'),
        (2, 'Web Development', 'Build websites with Django and Flask'),
        (3, 'Data Science', 'Python for data analysis and machine learning'),
    ]
)
conn.commit()

# Поиск
print("FTS поиск по одному слову:")
result = cursor.execute(
    "SELECT title, content FROM articles_fts WHERE articles_fts MATCH 'python'"
).fetchall()
for row in result:
    print(row)

# Поиск по фразе
print("
Поиск по фразе:")
result = cursor.execute(
    'SELECT title FROM articles_fts WHERE articles_fts MATCH \'"data analysis"\' '
).fetchall()
for row in result:
    print(row)

# С ранжированием по релевантности
print("
С ранжированием:")
result = cursor.execute('''
    SELECT title, rank FROM articles_fts 
    WHERE articles_fts MATCH 'python'
    ORDER BY rank
''').fetchall()
for row in result:
    print(row)
```

### PostgreSQL Full-Text Search

```python
from sqlalchemy import create_engine, text

engine = create_engine('postgresql://...')

with engine.connect() as conn:
    # Создаём tsvector (токенизированный вектор)
    conn.execute(text('''
        CREATE TABLE documents (
            id SERIAL PRIMARY KEY,
            title TEXT,
            body TEXT,
            search_vector tsvector
        )
    '''))
    
    # Заполняем индекс
    conn.execute(text('''
        INSERT INTO documents (title, body, search_vector) VALUES 
        ('Python Guide', 'Learn Python programming', 
         to_tsvector('english', 'Learn Python programming'))
    '''))
    conn.commit()
    
    # Поиск с оператором @@
    result = conn.execute(text(
        "SELECT title FROM documents WHERE search_vector @@ to_tsquery('english', 'python')"
    )).fetchall()
    for row in result:
        print(row)
```

### Elasticsearch для масштабного FTS

```python
from elasticsearch import Elasticsearch

es = Elasticsearch(['http://localhost:9200'])

# Индексирование
es.index(index='articles', id=1, body={
    'title': 'Python Programming',
    'content': 'Learn Python basics and advanced concepts'
})

es.index(index='articles', id=2, body={
    'title': 'Web Development',
    'content': 'Build websites with Django and Flask'
})

# Поиск
results = es.search(index='articles', body={
    'query': {
        'multi_match': {
            'query': 'python',
            'fields': ['title^2', 'content']  # title важнее
        }
    }
})

for hit in results['hits']['hits']:
    print(f"Score: {hit['_score']}, Title: {hit['_source']['title']}")
```

### Сравнение методов

| Метод | Скорость | Масштаб | Сложность | Языки |
|-------|----------|---------|-----------|-------|
| LIKE | Медленно | <100K | Просто | SQL |
| SQLite FTS5 | Быстро | До 1M | Средне | SQLite |
| PostgreSQL FTS | Быстро | До 10M | Средне | PostgreSQL |
| Elasticsearch | Очень быстро | Млрд+ | Сложно | Специальный |

### Стемминг и нормализация

```python
import nltk
from nltk.stem import SnowballStemmer

# Скачиваем ресурсы
nltk.download('punkt')

stemmer = SnowballStemmer('english')

words = ['programming', 'programs', 'programmer', 'programmed']
for word in words:
    print(f"{word} → {stemmer.stem(word)}")

# Вывод:
# programming → program
# programs → program
# programmer → program
# programmed → program
```

### Лучшие практики FTS

1. **Выбирай правильный движок**
   - Малый объём (<100K) → SQLite FTS5
   - Средний объём (100K-10M) → PostgreSQL FTS
   - Большой объём (>10M) → Elasticsearch/OpenSearch

2. **Оптимизируй стемминг и стоп-слова**
   ```python
   # PostgreSQL
   SELECT * FROM articles 
   WHERE search_vector @@ to_tsquery('english', 'python & web')
   ```

3. **Кэшируй часто используемые поиски** (Redis)

4. **Мониторь производительность** через размер индекса

5. **Используй ранжирование** для релевантности результатов

Полнотекстовый поиск критичен для любого приложения с большим объёмом текстовых данных. Выбор между SQLite, PostgreSQL и Elasticsearch зависит от масштаба и требований к производительности.

Метод	Скорость	Масштаб	Сложность	Языки
LIKE	Медленно	<100K	Просто	SQL
SQLite FTS5	Быстро	До 1M	Средне	SQLite
PostgreSQL FTS	Быстро	До 10M	Средне	PostgreSQL
Elasticsearch	Очень быстро	Млрд+	Сложно	Специальный

Что такое полнотекстовый поиск?

Комментарии (1)

Полнотекстовый поиск

Основное отличие от обычного LIKE

Как работает FTS

SQLite FTS5

PostgreSQL Full-Text Search

Elasticsearch для масштабного FTS

Сравнение методов

Стемминг и нормализация

Лучшие практики FTS