Можно ли t-тестом сравнить две выборки?
Комментарии (1)
Ответ сгенерирован нейросетью и может содержать ошибки
Да, t-тест используется для сравнения двух выборок
Основы t-теста
t-тест (Student's t-test) — один из самых популярных статистических методов для сравнения средних значений двух независимых выборок. Это параметрический тест, разработанный Уильямом Госсетом (писавшим под псевдонимом Student) в начале XX века.
Идея проста: если две группы имеют одинаковые средние значения, то разница между их средними должна быть близка к нулю. t-тест проверяет, насколько значима наблюдаемая разница.
Когда использовать t-тест
Тест применяется в следующих ситуациях:
- Сравнение двух независимых выборок — например, средний доход мужчин vs женщин
- Сравнение зависимых выборок (paired t-test) — например, показатели до и после тренировки у одних и тех же людей
- Проверка гипотезы о значимости коэффициента регрессии
Условия применения
Для корректности результатов необходимо соблюдать ряд предположений:
- Нормальность распределения — данные в каждой группе должны быть приблизительно нормально распределены
- Независимость наблюдений — значения в одной группе не зависят от другой
- Гомогенность дисперсий — в обеих группах примерно одинаковая разброс данных (для обычного t-теста)
Если эти условия не выполняются, используют модификации теста или непараметрические альтернативы.
Типы t-тестов
- Independent samples t-test — для двух независимых групп
- Paired t-test — для связанных измерений (one-to-one сопоставление)
- Welch's t-test — если дисперсии не равны (не требует гомогенности)
Пример расчёта
import numpy as np
from scipy import stats
# Данные: оценки до и после обучения
group_a = np.array([75, 82, 88, 91, 78, 85]) # первая выборка
group_b = np.array([88, 92, 85, 95, 89, 94]) # вторая выборка
# Independent samples t-test
t_statistic, p_value = stats.ttest_ind(group_a, group_b)
print(f"t-статистика: {t_statistic:.4f}")
print(f"p-value: {p_value:.4f}")
if p_value < 0.05:
print("Различия статистически значимы (p < 0.05)")
else:
print("Различия не значимы, группы похожи")
Интерпретация результатов
p-value — это вероятность получить такую же или более экстремальную разницу средних, если нулевая гипотеза верна (группы идентичны).
- p < 0.05 — различие статистически значимо на уровне 5%
- p ≥ 0.05 — нет оснований отвергать нулевую гипотезу
Альтернативы t-тесту
Если условия не выполняются, используй:
- Mann-Whitney U тест — непараметрическая альтернатива для независимых выборок
- Wilcoxon тест — для парных сравнений без требования нормальности
- Permutation тест — современный подход, более гибкий
Практический совет
В работе Data Analyst'а:
- Проверь предположения перед тестом (тест Шапиро-Уилка для нормальности)
- Для больших выборок (n > 30) t-тест устойчив к отклонениям от нормальности
- Всегда смотри на эффект-сайз (Cohen's d), не только на p-value
- Не забывай об интервалах доверия вокруг оценок