Линейная регрессия

Из статьи Вы узнаете основы регрессионного анализа: как выбирают регрессионную модель, какие регрессионные модели бывают и для чего вообще нужна эта модель. Также, какие методы определения качества модели используют.

Проблема регрессии

В изучении любых реальных процессов, будь то варка макарон или анализ инвестиций, есть один общий принцип - они все зависят от каких-либо параметров. Вкус макарон зависит от температуры плиты, количества воды, соли, качества макарон и так далее, математически это обозначается так:

Вкус = f(температура, объём воды, соль, ...)

Итак, разберёмся с варкой порции макарон, у Вас набор случайных величин: температура плиты, объём воды, количество соли. Зададимся целью узнать, как количество воды влияет на вкус макарон.

Постановка задачи

Как определить влияние объёма воды на вкус макарон? Необходимо провести ряд экспериментов, в которых каждая варка макарон будет проводиться с разным объёмом воды, но остальные условия (температура и количество соли) будут фиксированы. Зададимся значениями температуры и количеством соли:

Температура	t=500°C
Количество соли	15 г
Таблица 1. Фиксированные значения для эксперимента

Начнём наши эксперименты для различных объёмов воды, возьмём от 500 мл до 2200 мл, и каждый раз будем пробовать макароны на вкус и запишем все наши результаты:

#	Объём воды	Оценка
1	500 мл	3
2	600 мл	3
3	700 мл	4
4	800 мл	5
5	900 мл	6
6	1000 мл	8
7	1100 мл	9
8	1200 мл	13
9	1300 мл	14
10	1400 мл	18
11	1500 мл	23
12	1600 мл	25
13	1700 мл	30
14	1800 мл	38
15	1900 мл	44
16	2000 мл	50
17	2100 мл	67
18	2200 мл	84
Таблица 2. Оценка вкуса макарон в зависимости от объёма воды

Выявление зависимости

Итак, мы оцениваем вкус макарон в зависимости от объёма воды, математически мы изучаем функцию: Вкус = f(Объём). Весь регрессионный анализ заключается в процессе выявления функции f в данной зависимости.

В регрессионном анализе, функции (модели) делятся на два типа: линейные и нелинейные.

Линейная модель
y = a + bx
Нелинейная модель
y = ab^x + c

Для того, что бы построить простую регрессионную модель (функцию), необходимо набраться мужества и выдвинуть предположение, например:

— Эта функция похожа на линейную!

Когда Вы выбрали регрессионную модель, Вы начинаете подбирать коэффициенты, например, в линейной модели y=a+bx, необходимо подобрать коэффициенты a и b. Задача относительно не сложная, "a" - это первое значение, а "b" можно найти разницой последнего и первого значений. Провернув такую операцию с нашим примером, получим:

a = -21
b = 0.048
Вкус = -21 + 0.048x

Затабулируем значения нашей модели:

500 мл	600 мл	700 мл	800 мл	900 мл	1000 мл	1100 мл	1200 мл	1300 мл
3	7.8	12.6	17.4	22.2	27	31.8	36.6	41.4
1400 мл	1500 мл	1600 мл	1700 мл	1800 мл	1900 мл	2000 мл	2100 мл	2200 мл
46.2	51	55.8	60.6	65.4	70.2	75	79.8	84.6
Таблица 3. Затабулированные значения регрессионной модели

Вот, как это выглядит на графике:

График 1. Линейная регрессионная модель и исходные данные

Получение результата

С натяжечкой, конечно, похоже, но для математического вывода необходимо найти разброс значений модели и реальных значений. Эти значения - сумма квадратов отклонений и среднеквадратическая ошибка:

RSS (сумма квадратов отклонений) = (3 - 3)² + (7.8 - 3)² + ... + (84.6 - 84)² = 8392.4
MSE (среднее квадратическое отклонение) = √RSS = 91.61

S (дисперсия) = 21.59

Что делать с этой регрессионной моделью? Регрессионная модель позволяет предсказать, а что будет, например, если мы возьмём 2300 мл, 2400 мл и т.д. не проводя при этом сам эксперимент:

Вкус_{2300 мл} = -21 + 0.048· 2300 = 89.4
Вкус_{2400 мл} = -21 + 0.048· 2400 = 94.2

И, разумеется, мы можем узнать сколько нужно воды для идеальных макарон:

Вода_{идеальные макароны} = (100-21) / 0.048 = 2521 мл

Минимизируем ошибку

Итак, с нами наша модель y = a + bx и реальные значения функции, разница между функцией и моделью - это и есть ошибка, которую мы допускаем в каждом эксперименте. Значит, мы можем построить функцию ошибки, а если у нас есть функция, то мы всегда можем найти её минимум. Этим мы и займёмся, нахождением минимума функции ошибки.

Ошибка - это разница между реальным значением и смоделированным, поскольку эта разница может быть как положительной, так и отрицательной, необходимо использовать модуль разницы, что проще всего сделать возведя ошибку в квадрат, а затем извлечь корень. Значит, наша ошибка на каждом известном результате:

Y_o - значение из наблюдений (observation), Y_m - значение из модели (model)
e = (Y_o - Y_m)² = (Y_o - a - bx)²
Суммарная ошибка
S = Σe = Σ(Y_o - a - bx)²

Функция S - это функция ошибки, которую необходимо минимизировать, она зависит от параметров a и b. Для нахождения минимума функции воспользуемся простым методом - найдём производные по параметрам a и b (здесь мы опустим сложные методы поиска минимума функции):

Производные функции ошибки по параметрам a и b:
dS/da = Σ2(a+bx-y)
dS/db = Σ2(a+bx-y)x
Условие минимума функции:
Σ2(a+bx-y) = 0
Σ2(a+bx-y)x = 0
Упростим, сократим на 2 и разложим скобки (n-количество наблюдений):
na + bΣx = Σy
aΣx + bΣx² = Σxy

Найдём решение:

Σx = 24 300
Σx² = 37 650 000
Σy = 444
Σxy = 795 400

18·a + 24300·b = 444
24300·a + 37650000·b = 795400

-3589·a = 107474 ∴ a = -30
b = 0.04

Попробуем нашу новую модель в действии:

График 3. Линейная регрессионная модель урегулированная методом наименьших квадратов, y = -30·x + 0.04

RSS (сумма квадратов отклонений) = (-10 - 3)² + (-6 - 3)² + ... + (58 - 84)² = 1536
MSE (среднее квадратическое отклонение) = √RSS = 39.19

S (дисперсия) = 9.24

Вкус_{2300 мл} = -30 + 0.04· 2300 = 62
Вкус_{2400 мл} = -30 + 0.04· 2400 = 66

Как Вы, наверное, заметили, предсказания по нашей первой модели ближе к правде, нежели модели отрегулированной. Почему? Потому что модель была выбрана неверно, график функции больше похож на экспоненту и даже исходя из знания процесса ясно, что линейной зависимости здесь не место. Но это был всего лишь пример линейной регрессионной модели, о более сложных моделях и о способе выбора модели читайте в следующих статьях.

Скачать статью в формате PDF.

Автор статьи: Zakhar Telyatnikov
Дата редакции статьи: 23.10.2023

07.06.2017

Вам понравилась статья? /

Seen: 3 319

Рейтинг: 5 (11 голосов)