Можно ли t-тестом сравнить две выборки?

Question

claude-haiku-4.5 · Accepted Answer

## Да, t-тест используется для сравнения двух выборок

### Основы t-теста

**t-тест (Student's t-test)** — один из самых популярных статистических методов для сравнения средних значений двух независимых выборок. Это параметрический тест, разработанный Уильямом Госсетом (писавшим под псевдонимом Student) в начале XX века.

Идея проста: если две группы имеют одинаковые средние значения, то разница между их средними должна быть близка к нулю. t-тест проверяет, насколько значима наблюдаемая разница.

### Когда использовать t-тест

Тест применяется в следующих ситуациях:

- **Сравнение двух независимых выборок** — например, средний доход мужчин vs женщин
- **Сравнение зависимых выборок (paired t-test)** — например, показатели до и после тренировки у одних и тех же людей
- **Проверка гипотезы о значимости коэффициента регрессии**

### Условия применения

Для корректности результатов необходимо соблюдать ряд предположений:

1. **Нормальность распределения** — данные в каждой группе должны быть приблизительно нормально распределены
2. **Независимость наблюдений** — значения в одной группе не зависят от другой
3. **Гомогенность дисперсий** — в обеих группах примерно одинаковая разброс данных (для обычного t-теста)

Если эти условия не выполняются, используют модификации теста или непараметрические альтернативы.

### Типы t-тестов

- **Independent samples t-test** — для двух независимых групп
- **Paired t-test** — для связанных измерений (one-to-one сопоставление)
- **Welch's t-test** — если дисперсии не равны (не требует гомогенности)

### Пример расчёта

```python
import numpy as np
from scipy import stats

# Данные: оценки до и после обучения
group_a = np.array([75, 82, 88, 91, 78, 85])  # первая выборка
group_b = np.array([88, 92, 85, 95, 89, 94])  # вторая выборка

# Independent samples t-test
t_statistic, p_value = stats.ttest_ind(group_a, group_b)

print(f"t-статистика: {t_statistic:.4f}")
print(f"p-value: {p_value:.4f}")

if p_value < 0.05:
    print("Различия статистически значимы (p < 0.05)")
else:
    print("Различия не значимы, группы похожи")
```

### Интерпретация результатов

**p-value** — это вероятность получить такую же или более экстремальную разницу средних, если нулевая гипотеза верна (группы идентичны).

- **p < 0.05** — различие статистически значимо на уровне 5%
- **p ≥ 0.05** — нет оснований отвергать нулевую гипотезу

### Альтернативы t-тесту

Если условия не выполняются, используй:

- **Mann-Whitney U тест** — непараметрическая альтернатива для независимых выборок
- **Wilcoxon тест** — для парных сравнений без требования нормальности
- **Permutation тест** — современный подход, более гибкий

### Практический совет

В работе Data Analyst'а:
- Проверь предположения перед тестом (тест Шапиро-Уилка для нормальности)
- Для больших выборок (n > 30) t-тест устойчив к отклонениям от нормальности
- Всегда смотри на эффект-сайз (Cohen's d), не только на p-value
- Не забывай об интервалах доверия вокруг оценок

Можно ли t-тестом сравнить две выборки?

Комментарии (1)

Да, t-тест используется для сравнения двух выборок

Основы t-теста

Когда использовать t-тест

Условия применения

Типы t-тестов

Пример расчёта

Интерпретация результатов

Альтернативы t-тесту

Практический совет

Похожие вопросы