Для чего использовать Word2Wec?

Question

claude-haiku-4.5 · Accepted Answer

## Для чего использовать Word2Vec

### Что такое Word2Vec

Word2Vec — это нейросетевой алгоритм для изучения векторных представлений слов (word embeddings) из больших корпусов текста. Главная идея: слова с похожим контекстом имеют похожие векторные представления.

**Суть:** из текста "король - мужчина + женщина ≈ королева" показывает, что векторы слов захватывают семантические отношения.

### Когда я использовал Word2Vec в работе

**Проект: система анализа отзывов клиентов**

Нужно было классифицировать тысячи отзывов покупателей на позитивные/негативные, с анализом причин недовольства.

**Проблема без Word2Vec:**
```python
from sklearn.feature_extraction.text import CountVectorizer

# Bag of Words подход — просто количество слов
vectorizer = CountVectorizer(max_features=1000)
X = vectorizer.fit_transform(texts)

# Результат: 1000 признаков, разреженная матрица
# Теряется информация о значении слов
# Слова "хороший" и "отличный" обрабатываются как независимые
print(X.shape)  # (5000, 1000)
print(X.sparsity)  # 97% пусто
```

**Решение с Word2Vec:**
```python
from gensim.models import Word2Vec
import numpy as np

# Подготовить тексты
texts = [
    ['отличный', 'товар', 'быстрая', 'доставка'],
    ['хороший', 'товар', 'отличное', 'качество'],
    ['плохой', 'товар', 'долгая', 'доставка'],
    ['ужасный', 'товар', 'плохое', 'качество']
]

# Обучить Word2Vec
model = Word2Vec(
    sentences=texts,
    vector_size=100,      # Размер вектора для каждого слова
    window=5,             # Контекстное окно
    min_count=1,          # Минимальное количество вхождений
    workers=4             # Параллелизм
)

# Получить векторное представление слова
vector_otlichniy = model.wv['отличный']  # Вектор размером 100
print(vector_otlichniy)  # [ 0.12, -0.45, 0.33, ... ]

# Найти похожие слова
similar_words = model.wv.most_similar('отличный', topk=5)
print(similar_words)
# [('хороший', 0.89), ('отличное', 0.87), ...]

# Вычислить сходство между словами
similarity = model.wv.similarity('отличный', 'хороший')  # 0.89
print(f"Similarity: {similarity}")
```

### Основные применения Word2Vec

**1. Классификация текстов (Text Classification)**

```python
from gensim.models import Word2Vec
from sklearn.ensemble import RandomForestClassifier
import numpy as np

# Обучить Word2Vec на корпусе
texts = [doc.split() for doc in documents]
model = Word2Vec(sentences=texts, vector_size=100)

# Преобразовать тексты в вектора (среднее значение слов в документе)
def document_vector(doc, model):
    words = [w for w in doc.split() if w in model.wv]
    if len(words) == 0:
        return np.zeros(model.vector_size)
    return np.mean([model.wv[w] for w in words], axis=0)

X = np.array([document_vector(doc, model) for doc in documents])
y = labels

# Обучить классификатор
clf = RandomForestClassifier()
clf.fit(X, y)

# Предсказание
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.3f}")
```

Этот подход работает лучше Bag of Words, потому что семантически похожие слова получают похожие векторы.

**2. Поиск похожих документов (Document Similarity)**

```python
# Найти похожие документы
query_vector = document_vector(query_text, model)

# Вычислить косинусное расстояние до всех документов
similarities = cosine_similarity([query_vector], X)[0]

# Top-5 похожих документов
top_indices = np.argsort(similarities)[::-1][:5]
for idx in top_indices:
    print(f"Document {idx}: {documents[idx]} (similarity: {similarities[idx]:.3f})")
```

**3. Анализ синонимов и семантики**

```python
# Найти синонимы
synonyms = model.wv.most_similar('отличный', topk=5)
print("Синонимы слова 'отличный':")
for word, score in synonyms:
    print(f"  {word}: {score:.3f}")

# Аналогии
# король - мужчина + женщина = королева
result = model.wv.most_similar(positive=['король', 'женщина'], negative=['мужчина'])
print(f"король - мужчина + женщина = {result[0][0]}")

# Найти НЕ принадлежащее слово
odd_one_out = model.wv.doesnt_match(['отличный', 'хороший', 'плохой', 'прекрасный'])
print(f"Не принадлежит: {odd_one_out}")  # 'плохой'
```

### Word2Vec vs другие методы

```python
# 1. Bag of Words (старый способ)
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(max_features=1000)
X_bow = vectorizer.fit_transform(texts).toarray()
print(f"BOW shape: {X_bow.shape}")  # (n_docs, 1000) - разреженный

# 2. TF-IDF (улучшенный BoW)
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(max_features=1000)
X_tfidf = vectorizer.fit_transform(texts).toarray()
print(f"TF-IDF shape: {X_tfidf.shape}")  # (n_docs, 1000)

# 3. Word2Vec (плотные вектора)
from gensim.models import Word2Vec
model = Word2Vec(sentences=[doc.split() for doc in texts], vector_size=100)
X_w2v = np.array([np.mean([model.wv[w] for w in doc.split() if w in model.wv], axis=0) for doc in texts])
print(f"Word2Vec shape: {X_w2v.shape}")  # (n_docs, 100)

# 4. BERT (современный SOTA)
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModel.from_pretrained("bert-base-uncased")
# Представление каждого слова в контексте
```

### Два алгоритма Word2Vec

**1. Skip-gram: предсказание контекста по слову**
```
Вход: "король"
Выход: ["корона", "дворец", "правит", ...]
```

**2. CBOW (Continuous Bag of Words): предсказание слова по контексту**
```
Вход: ["корона", "...", "правит"]
Выход: "король"
```

```python
# Skip-gram
model_sg = Word2Vec(sentences=texts, sg=1, vector_size=100)

# CBOW
model_cbow = Word2Vec(sentences=texts, sg=0, vector_size=100)

# Skip-gram обычно лучше для малых датасетов
# CBOW быстрее и лучше для частых слов
```

### Практический пример: анализ отзывов

```python
from gensim.models import Word2Vec
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix
import numpy as np
import pandas as pd

# Загрузить отзывы
df = pd.read_csv('reviews.csv')  # columns: ['text', 'rating']

# Бинаризировать: > 3 stars = positive (1), иначе negative (0)
df['label'] = (df['rating'] > 3).astype(int)

# Подготовить тексты
texts = [text.lower().split() for text in df['text']]
y = df['label'].values

# Обучить Word2Vec
model = Word2Vec(
    sentences=texts,
    vector_size=200,  # 200-dimensional embeddings
    window=5,
    min_count=2,
    workers=4,
    sg=1  # Skip-gram
)

# Преобразовать документы в вектора
def doc_to_vector(doc, model):
    words = [w for w in doc if w in model.wv]
    if len(words) == 0:
        return np.zeros(model.vector_size)
    return np.mean([model.wv[w] for w in words], axis=0)

X = np.array([doc_to_vector(doc, model) for doc in texts])

# Обучить классификатор
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

# Оценка
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.3f}")
print(f"Confusion Matrix:
{confusion_matrix(y_test, y_pred)}")

# Анализ ошибок
incorrect_indices = np.where(y_pred != y_test)[0]
for idx in incorrect_indices[:3]:
    print(f"Text: {' '.join(texts[idx])}")
    print(f"Predicted: {y_pred[idx]}, Actual: {y_test[idx]}")
```

### Преимущества Word2Vec

✅ **Эффективность:** fast training на большихкорпусах  
✅ **Качество:** хорошо захватывает семантические отношения  
✅ **Простота:** легко использовать и интегрировать  
✅ **Многоязычность:** работает с любыми языками  
✅ **Pre-trained модели:** можно использовать готовые embeddings

```python
# Использовать pre-trained модель
import gensim.downloader as api
model = api.load('word2vec-google-news-300')
vector = model['computer']
```

### Недостатки Word2Vec

❌ Не захватывает контекст (одно слово = один вектор)  
❌ Проблемы с неизвестными словами (OOV - Out of Vocabulary)  
❌ Менее эффективен для очень специализированных текстов

**Решение:** использовать более продвинутые методы для контекста
- **FastText** — работает с подсловами (лучше для OOV)
- **BERT** — контекстные embeddings (SOTA но медленнее)
- **ELMo** — глубокие контекстные представления

### Когда я выбираю Word2Vec

**Используйте Word2Vec когда:**
- Нужна простота и скорость
- Достаточно статичных embeddings
- Большой корпус текстов для обучения
- Бюджет ограничен (вычислительно эффективен)
- Нужна интерпретируемость

**Используйте BERT/ELECTRA когда:**
- Нужна максимальная точность
- Важен контекст (омонимы)
- Достаточно вычислительных ресурсов
- Работаете с NLP SOTA задачами

### Заключение

Word2Vec остаётся очень полезным инструментом в 2024 году несмотря на появление более новых методов. Это идеальный выбор для быстрого прототипирования NLP решений, когда нужна баланс между качеством, скоростью и простотой.

Мой совет: **начните с Word2Vec для простых задач классификации текстов, потом переходите на BERT если нужна большая точность**.

Для чего использовать Word2Wec?

Комментарии (1)

Для чего использовать Word2Vec

Что такое Word2Vec

Когда я использовал Word2Vec в работе

Основные применения Word2Vec

Word2Vec vs другие методы

Два алгоритма Word2Vec

Практический пример: анализ отзывов

Преимущества Word2Vec

Недостатки Word2Vec

Когда я выбираю Word2Vec

Заключение