← Назад к вопросам

В какой точке должен оказаться ползунок, чтобы это было минимальным значением суммы квадратов отклонений

2.0 Middle🔥 91 комментариев
#Статистика и теория вероятностей

Комментарии (1)

🐱
claude-haiku-4.5PrepBro AI23 мар. 2026 г.(ред.)

Ответ сгенерирован нейросетью и может содержать ошибки

Минимизация суммы квадратов отклонений: математическое решение

Это классический вопрос из статистики и теории оптимизации. Ответ базируется на методе наименьших квадратов (OLS — Ordinary Least Squares).

Определение задачи

Что такое сумма квадратов отклонений?

Это сумма квадратов разностей между наблюдаемыми значениями и центром (ползунком):

SSD = Σ(xi - c)²

Где:

  • xi — каждое значение в наборе данных
  • c — положение ползунка (центр)
  • Σ — сумма по всем значениям

Математическое решение

Ответ: Ползунок должен находиться на СРЕДНЕМ ЗНАЧЕНИИ (Mean)

Это фундаментальный результат в статистике. Чтобы это доказать, используем дифференциальное исчисление:

SSD(c) = Σ(xi - c)²

Чтобы найти минимум, берём производную по c:

d(SSD)/dc = Σ 2(xi - c)(-1) = -2Σ(xi - c)

Устанавливаем производную равной нулю:
-2Σ(xi - c) = 0
Σ(xi - c) = 0
Σxi - Σc = 0
Σxi - n*c = 0
c = Σxi / n = MEAN (среднее)

Вторая производная положительна (= 2n > 0), что подтверждает это минимум.

Практический пример

Набор данных: [10, 15, 20, 25, 30]

Среднее значение: (10 + 15 + 20 + 25 + 30) / 5 = 100 / 5 = 20

Проверка — SSD при разных положениях ползунка:

При c = 18: (10-18)² + (15-18)² + (20-18)² + (25-18)² + (30-18)² = 64+9+4+49+144 = 270
При c = 19: (10-19)² + (15-19)² + (20-19)² + (25-19)² + (30-19)² = 81+16+1+36+121 = 255
При c = 20: (10-20)² + (15-20)² + (20-20)² + (25-20)² + (30-20)² = 100+25+0+25+100 = 250 ✓ МИНИМУМ
При c = 21: (10-21)² + (15-21)² + (20-21)² + (25-21)² + (30-21)² = 121+36+1+16+81 = 255
При c = 22: (10-22)² + (15-22)² + (20-22)² + (25-22)² + (30-22)² = 144+49+4+9+64 = 270

Как видно, минимум достигается при c = 20 (среднее значение).

Python иллюстрация

import numpy as np
import matplotlib.pyplot as plt

# Данные
data = np.array([10, 15, 20, 25, 30])
mean = np.mean(data)

# Функция для расчёта SSD
def ssd(data, center):
    return np.sum((data - center) ** 2)

# Проверяем SSD для разных позиций ползунка
sliders = np.linspace(5, 35, 100)
ssd_values = [ssd(data, c) for c in sliders]

plt.plot(sliders, ssd_values, label='SSD(c)')
plt.axvline(mean, color='red', linestyle='--', label=f'Mean = {mean}')
plt.scatter([mean], [ssd(data, mean)], color='red', s=100, zorder=5)
plt.xlabel('Позиция ползунка (c)')
plt.ylabel('Сумма квадратов отклонений')
plt.title('Минимизация SSD')
plt.legend()
plt.grid(True)
plt.show()

print(f'Минимальное значение SSD достигается при c = {mean}')
print(f'Минимальное значение SSD = {ssd(data, mean)}')

Важный контекст: почему квадраты?

Почему мы используем квадраты отклонений, а не абсолютные значения?

  1. Математическое удобство

    • Функция дифференцируема везде
    • Аналитическое решение (Mean)
  2. Статистическая обоснованность

    • При нормальном распределении это Maximum Likelihood Estimator
    • Часто соответствует реальным ошибкам
  3. Штраф за большие ошибки

    • Большие отклонения штрафуются сильнее
    • Меньше влияния выбросов, чем абсолютные отклонения

Альтернатива: сумма абсолютных отклонений

Если использовать абсолютные отклонения вместо квадратов:

SAD = Σ|xi - c|

Тогда минимум достигается на МЕДИАНЕ, а не среднем. Медиана более устойчива к выбросам.

Сравнение:

  • Mean + SSD: чувствительна к выбросам, но статистически оптимальна
  • Median + SAD: устойчива к выбросам, но менее частотна в классической статистике

Практическое применение

В машинном обучении

  • Линейная регрессия минимизирует SSE (Sum of Squared Errors)
  • Нейронные сети часто используют MSE (Mean Squared Error) как loss

В контроле качества

  • Используется для расчёта стандартного отклонения
  • Базис для концепции variance в статистике

В экономике

  • Метод наименьших квадратов для трендов
  • Прогнозирование и анализ рынков

Ключевой вывод

Ответ: Ползунок должен находиться на среднем значении (Mean) набора данных.

Это классический результат теории оптимизации, который является основой для линейной регрессии, нормального распределения и множества аналитических методов. В отличие от медианы (которая минимизирует сумму абсолютных отклонений), среднее значение минимизирует сумму квадратов отклонений.

В какой точке должен оказаться ползунок, чтобы это было минимальным значением суммы квадратов отклонений | PrepBro