Будешь делать split по чатам или по пользователям

Question

claude-haiku-4.5 · Accepted Answer

# Split по чатам vs по пользователям: выбор уровня рандомизации

## Краткий ответ

**Выбор зависит от объекта эксперимента, но в 95% случаев — split по пользователям.** Split по чатам используется только в специфических сценариях, когда эффект локализован в контексте одного чата.

## Контекст: когда вообще нужен этот выбор?

Обычно вопрос встаёт когда:
- **Платформа с чатами** (мессенджер, Slack, Discord)
- **Нужно добавить новую фичу** (например, новый способ ранжирования сообщений)
- **Неясно: это влияет на пользователя или на содержимое чата?**

## Вариант 1: Split по пользователям (ПРАВИЛЬНО в 80% случаев)

### Что это значит

```
Пользователь A: видит версию Control
Пользователь B: видит версию Treatment
Пользователь A участвует в 10 чатах → видит Control везде
Пользователь B участвует в 10 чатах → видит Treatment везде
```

### Когда использовать

**Используй split по пользователям если:**

1. **Фича влияет на поведение пользователя** (например, изменение UI, рекомендаций для пользователя)
   - Новая кнопка в интерфейсе
   - Другой алгоритм ранжирования постов
   - Изменение способа поиска
   - Уведомления

2. **Контрольная переменная — это пользователь**
   - Понимаем, как пользователь реагирует на новую фичу
   - Метрики: DAU, session time, engagement, конверсия

3. **Есть cross-chat эффекты**
   - Пользователь может синхронизировать опыт между чатами
   - Если в одном чате он видит новую фичу, это влияет на поведение в других

### Пример: новый способ поиска в мессенджере

```python
# Split по пользователям
if user.id in treatment_group:  # Рандомизация один раз при создании
    search_algorithm = "AI-powered"  # Для ВСЕХ чатов пользователя
else:
    search_algorithm = "keyword-based"  # Для ВСЕХ чатов пользователя

# Пользователь A (treatment):
# - Чат 1: видит AI поиск
# - Чат 2: видит AI поиск
# - Чат 3: видит AI поиск

# Пользователь B (control):
# - Чат 1: видит keyword поиск
# - Чат 2: видит keyword поиск
# - Чат 3: видит keyword поиск
```

### Плюсы
- ✅ Просто для понимания пользователем
- ✅ Нет путаницы при переключении между чатами
- ✅ Стандартный подход в индустрии
- ✅ Легче считать метрики (user-level metrics)
- ✅ Меньше contamination effects

### Минусы
- ❌ Если разные пользователи в чате видят разные версии → путаница
- ❌ Может быть сложнее анализировать chat-level метрики

## Вариант 2: Split по чатам (ПРАВИЛЬНО в 20% случаев)

### Что это значит

```
Чат A (содержимое): видит версию Control
Чат B (содержимое): видит версию Treatment
Пользователь X в чате A: видит Control
Пользователь X в чате B: видит Control (не Treatment!)
```

### Когда использовать

**Используй split по чатам если:**

1. **Фича влияет на контент чата или его структуру**
   - Новый способ сортировки всех сообщений в чате
   - Новый алгоритм рекомендаций постов в чате
   - Изменение визуализации потока чата
   - Модерация или фильтрация контента

2. **Контрольная переменная — это сам чат**
   - Понимаем, как новая фича влияет на динамику внутри чата
   - Метрики: количество сообщений в чате, engagement чата, токсичность

3. **Разные пользователи должны видеть одно и то же**
   - Важно, что ВСЕ в чате видят одну версию
   - Иначе есть путаница ("почему у тебя по-другому?")

4. **Есть peer effects внутри чата**
   - Поведение одного пользователя влияет на других в чате
   - Если половина видит Control, половина Treatment → неправильное сравнение

### Пример: новый алгоритм ранжирования сообщений в чате

```python
# Split по чатам
if chat.id in treatment_group:  # Рандомизация чата один раз
    ranking_algorithm = "AI-powered"
else:
    ranking_algorithm = "chronological"

# Чат A (treatment):
# - Пользователь X: видит AI ранжирование
# - Пользователь Y: видит AI ранжирование
# - Пользователь Z: видит AI ранжирование

# Чат B (control):
# - Пользователь X: видит chronological
# - Пользователь Y: видит chronological
# - Пользователь Z: видит chronological
```

### Плюсы
- ✅ Все в чате видят одно и то же (нет путаницы)
- ✅ Правильно считаются peer effects
- ✅ Правильно для изменений структуры чата

### Минусы
- ❌ Сложнее анализировать (нужно думать о chat-level метриках)
- ❌ Меньше статистической мощности (чатов < пользователей)
- ❌ Может быть bias, если чаты неоднородны
- ❌ Пользователь в разных чатах видит разные версии → путаница

## Сравнительная таблица

| Характеристика | Split по пользователям | Split по чатам |
|---|---|---|
| **Рандомизация** | Каждый пользователь → 1 версия | Каждый чат → 1 версия |
| **Единица анализа** | User | Chat |
| **Sample size** | Большой (миллионы пользователей) | Меньший (тысячи чатов) |
| **Статистическая мощность** | Высокая ✅ | Ниже ❌ |
| **Peer effects** | Игнорируются | Учитываются ✅ |
| **Путаница в UI** | Низкая ✅ | Может быть выше ❌ |
| **Когда использовать** | Фича про поведение пользователя | Фича про контент чата |

## Примеры конкретных фич

### Должно быть Split по пользователям
- 🔍 Новый алгоритм поиска
- 🔔 Изменение в уведомлениях
- ⚙️ Новые настройки приватности
- 💬 Изменение в редакторе сообщений
- 👤 Персонализированные рекомендации для пользователя
- 🎨 Новый дизайн UI

### Должно быть Split по чатам
- 📊 Новый алгоритм ранжирования сообщений в чате
- 🔤 Изменение способа отображения потока
- 🚫 Новые правила модерации контента
- 📌 Новый способ пинить важные сообщения
- 👥 Изменение способа отображения участников
- 🌐 Переводы в реальном времени (для всего чата)

## Практический пример: гибридный сценарий

**Сценарий:** Изменение способа отображения реакций на сообщения (emoji reactions)

### Вариант A: Split по пользователям
- Пользователь видит новый способ отображения реакций ВЕЗДЕ
- Правильно если: это изменение способа взаимодействия пользователя

### Вариант B: Split по чатам
- ВСЕ в чате видят новый способ отображения реакций
- Правильно если: это изменение в визуальной структуре чата

**Мой выбор:** Скорее по пользователям, потому что это влияет на способ взаимодействия.

## Рекомендация при неуверенности

**Если не знаешь, как split делать:**

1. **Спроси себя:** Кто является субъектом экспериментов? Пользователь или чат?
2. **Если сомневаешься:** Обычно это пользователь (80% случаев)
3. **Если есть peer effects:** Выбери split по чатам
4. **Если есть путаница в UI:** Выбери split по чатам
5. **Проверь sample size:** Split по чатам требует больше чатов

## Статистические соображения

```sql
-- Split по пользователям
SELECT 
  user_id,
  CASE WHEN MD5(user_id) < '80000000000000000000000000000000' THEN 'Control' ELSE 'Treatment' END as variant
FROM users;
-- n = 1,000,000 пользователей → статистическая мощность ✅✅✅

-- Split по чатам
SELECT 
  chat_id,
  CASE WHEN MD5(chat_id) < '80000000000000000000000000000000' THEN 'Control' ELSE 'Treatment' END as variant
FROM chats;
-- n = 10,000 чатов → статистическая мощность ✅ (но ниже)
```

## Итоговая рекомендация

**В вашем случае (если контекст мессенджера/чатов):**
- **По умолчанию: split по пользователям**
- **Исключения:** если фича про содержимое чата → split по чатам

**Просите уточнение:** Что именно меняется? Поведение пользователя или структура чата?

Характеристика	Split по пользователям	Split по чатам
Рандомизация	Каждый пользователь → 1 версия	Каждый чат → 1 версия
Единица анализа	User	Chat
Sample size	Большой (миллионы пользователей)	Меньший (тысячи чатов)
Статистическая мощность	Высокая ✅	Ниже ❌
Peer effects	Игнорируются	Учитываются ✅
Путаница в UI	Низкая ✅	Может быть выше ❌
Когда использовать	Фича про поведение пользователя	Фича про контент чата

Будешь делать split по чатам или по пользователям

Комментарии (1)

Краткий ответ

Контекст: когда вообще нужен этот выбор?

Вариант 1: Split по пользователям (ПРАВИЛЬНО в 80% случаев)

Что это значит

Когда использовать

Пример: новый способ поиска в мессенджере

Плюсы

Минусы

Вариант 2: Split по чатам (ПРАВИЛЬНО в 20% случаев)

Что это значит

Когда использовать

Пример: новый алгоритм ранжирования сообщений в чате

Плюсы

Минусы

Сравнительная таблица

Примеры конкретных фич

Должно быть Split по пользователям

Должно быть Split по чатам

Практический пример: гибридный сценарий

Вариант A: Split по пользователям

Вариант B: Split по чатам

Рекомендация при неуверенности

Статистические соображения

Итоговая рекомендация