Искусственный интеллект

Машинное обучение

20 апреля

15 минут

Линейная регрессия — проще некуда

В этой статье мы рассмотрим один из самых простых алгоритмов машинного обучения, а именно — линейную регрессию.

Вячеслав Гораш

Разработчик в области 3D графики и машинного обучения с 6-ти летним опытом

Это статья из цикла про основы машинного обучения.

В прошлой статье мы рассматривали машинное обучение в общем виде, без деталей работы. В этой же статье начнем разбираться в конкретных алгоритмах. И начнем с самой простой на мой взгляд модели — линейной регрессии.

Разбираемся с терминами

Для начала давайте определимся, что за задачу и как мы будем решать. Итак, решаем мы задачу регрессии. О том, что это за задача, мы говорили в прошлой статье, но на всякий случай напомню. У нас есть некие данные $X$ . Это может быть одно число или несколько (такой набор чисел называется вектором). Мы хотим для $X$ получить в качестве ответа одно значение, которое мы обозначаем $\widehat{y}$ . Это значение непрерывно и может быть в любом диапазоне.

В качестве примера такой задачи можно привести определение веса человека по его росту. Тогда входными данными у нас будет одно число — рост человека в сантиметрах. На выходе мы тоже получим одно число — вес в килограммах. Как же нам посчитать это значение?

Это нам подскажет второе слово в названии метода. Регрессия у нас линейная. Что это значит? Это значит, что для определения выходного значения мы будем использовать формулу прямой линии. Здесь стоит вспомнить школьную программу, в которой говорится, что прямая задается таким выражением:

y = kx + b

Эту формулу легко использовать и для нашего случая. Просто обозначим $y$ вес человека, а $x$ — рост. На самом деле нам еще нужно немного поправить обозначения. Обычно $y$ обозначают правильный ответ, то есть, в нашем случае, реальный вес человека. Мы же пытаемся сделать прогноз, и наш результат, как говорилось выше, будем обозначать не $y$ , а $\widehat{y}$ . Но вернемся от обозначений к сути. Нам останется подобрать коэффициенты $k$ и $b$ , и мы сможем приблизительно решить задачу.

Но решение будет не очень точным (а скорее всего — очень неточным). Дело в том, что рост и вес не связаны линейной зависимостью напрямую. Есть высокие и худые люди, а есть невысокие и полные. И такая простая формула работать будет плохо. Чтобы увеличить точность нужно усложнять модель. Добавим обхват талии. Теперь наши входные данные уже не одно число $x$ , а вектор $\left\lbrack x_{1},x_{2} \right\rbrack$ : $x_{1}$ обозначает рост, а $x_{2}$ — обхват талии. Выходные данные остались прежними — вес в килограммах. Формула при этом меняется, но не радикально:

\widehat{y} = k_{1}x_{1} + k_{2}x_{2} + b

Для успешного обучения нам теперь нужно найти уже не два, а три параметра: $k_{1}$ , $k_{2}$ и $b$ . Для дальнейшего повышения точности мы можем и дальше добавлять входные данные, например, длину ноги, обхват груди и так далее. При этом каждое новое число во входных данных приносит с собой и новый параметр модели, который нам нужно будет найти. В общем виде, если у нас много параметров (обозначим это «много» как $m$ ), формула будет иметь такой вид:

\widehat{y} = k_{1}x_{1} + k_{2}x_{2} + \ldots + k_{m}x_{m} + b

или

\widehat{y} = \sum_{i = 1}^{m} k_{i}x_{i} + b

Все, что нам осталось — это разобраться, как найти параметры $k_{i}$ и $b$ .

Учимся обучаться

Для начала стоит вернуться к самому простому случаю, когда у нас один параметр. В таком виде формула выглядит так:

\widehat{y} = kx + b

Как говорилось выше, обучение состоит в том, чтобы подобрать коэффициенты $k$ и $b$ . Какими должны быть эти коэффициенты? Мы хотим, чтобы наши ответы $\widehat{y}$ были максимально близки к правильным ответам $y$ . Что значит «максимально близки»? Разница между $y$ и $\widehat{y}$ должна быть минимальной. Это можно записать как

\left| y - \widehat{y} \right| \rightarrow 0

С модулями работать неудобно, поэтому лучше вместо модуля использовать квадрат. Математически это эквивалентно (если модуль стремится к нулю, то и квадрат стремится к нулю тоже):

\left( y - \widehat{y} \right)^{2} \rightarrow 0

Если бы у нас был всего один пример, то задача бы решалась элементарно: выбираем любую пару $k$ и $b$ так, чтобы $kx + b = y$ . Таких пар бесконечное множество, это следует из геометрических соображений, что через одну точку можно провести бесконечное число прямых. Но мы хотим, чтобы наша модель работала не для одной пары значений, а для всех возможных. То есть нам нужно провести линию так, чтобы она в среднем была максимально близко ко всем точкам:

\frac{ \sum_{i = 1}^{n} \left( y_{i} - \widehat{y_{i}} \right)^{2} }{n} \rightarrow 0

Знаменатель можем не учитывать, так как он ни на что не влияет. Теперь вспомним, как считается $\widehat{y}$ :

\sum_{i = 1}^{n}\left( y_{i} - \left( kx_{i} + b \right) \right)^{2} \rightarrow 0

Оптимизация такой функции называется методом наименьших квадратов.

На иллюстрации синими точками показаны реальные значения. Красными — предсказания модели. Красная линия — график функции $y = kx + b$ . Мы стараемся минимизировать сумму расстояний между красными и синими точками (пунктирные линии).

Оптимизируем

Давайте посмотрим на нашу функцию:

\sum_{i = 1}^{n}\left( y_{i} - \left( kx_{i} + b \right) \right)^{2}

От чего она зависит? Входные данные $x_{i}$ и правильные ответы $y_{i}$ у нас неизменны. Значит, сумма будет зависеть только от параметров $k$ и $b$ . Получается, что у нас функция от двух переменных, и мы должны найти ее минимум. Если нарисовать поверхность, которую описывает эта функция, мы получим такую картинку:

Поверхность, описываемая квадратичной функцией

Если опять вспомнить школьную математику, то экстремум (минимум или максимум) функции находится там, где производная равна нулю (если такое место у функции есть). Это как раз наш случай: по графику мы видим, что экстремум у функции один, и как раз в нем и будет минимум.

Самое главное, что производные мы можем считать отдельно по каждой из переменных. Сначала считаем производную по $b$ . Знак суммы — это просто операция сложения. Вспоминаем цепное правило:

\frac{d}{dx} f(g(x)) = \frac{d}{dg} f(g(x)) \cdot \frac{d}{dx} g(x)

Считаем сначала по $b$ :

\frac{d}{db}\sum_{i = 1}^{n}\left( y_{i} - \left( kx_{i} + b \right) \right)^{2} = - 2\sum_{i = 1}^{n}\left( y_{i} - \left( kx_{i} + b \right) \right)

Уберем минус перед суммой, просто поменяв местами выражения в скобках:

-2\sum_{i = 1}^{n}\left( y_{i} - \left( kx_{i} + b \right) \right) = 2\sum_{i = 1}^{n}\left( \left( kx_{i} + b \right) - y_{i} \right)

Так как у нас теперь нет квадрата, мы можем разложить выражение на несколько сумм:

2\sum_{i = 1}^{n}\left( \left( kx_{i} + b \right) - y_{i} \right) = 2\sum_{i = 1}^{n}kx_{i} + 2\sum_{i = 1}^{n} b-2 \sum_{i = 1}^{n} y_{i}

Обратите внимание, что $2\sum_{i = 1}^{n}b$ — это просто сложение $b$ с самим собой $2n$ раз, то есть $2nb$ .

Теперь вспомним, что мы ищем ноль производной. Значит, приравняем наше выражение к нулю:

2\sum_{i = 1}^{n}\left( kx_{i} \right) + 2nb - 2\sum_{i = 1}^{n}{y_{i} = 0}

Сократим двойки и перенесем элементы, чтобы выразить $b$ :

\sum_{i = 1}^{n}\left( kx_{i} \right) + nb - \sum_{i = 1}^{n}{y_{i} = 0}

nb = \sum_{i = 1}^{n} y_{i} - \sum_{i = 1}^{n} kx_{i}

b = \frac{\sum_{i = 1}^{n} y_{i} - k\sum_{i = 1}^{n} x_{i} }{n}

Теперь так же посчитаем производную по $k$ :

\frac{d}{dk} \sum_{i = 1}^{n} \left( y_{i} - \left( kx_{i} + b \right) \right)^{2} = - 2\sum_{i = 1}^{n}\left( \left( y_{i} - \left( kx_{i} + b \right) \right)x_{i} \right)

Переставляем элементы, чтобы убрать минус:

-2\sum_{i = 1}^{n}\left( \left( y_{i} - \left( kx_{i} + b \right) \right) \cdot x_{i} \right) = 2\sum_{i = 1}^{n}{\left( \left( kx_{i} + b - y_{i} \right)x_{i} \right)}

Приравниваем к нулю и сокращаем двойку:

2\sum_{i = 1}^{n} \left( \left( kx_{i} + b - y_{i} \right) \cdot x_{i} \right) = 0

\sum_{i = 1}^{n}\left( \left( kx_{i} + b - y_{i} \right) \cdot x_{i} \right) = 0

В итоге мы получаем систему из двух уравнений:

\begin{cases} \sum_{i = 1}^{n} \left( \left(k * x_{i} + b - y_{i}\right) \cdot x_{i} \right) = 0 \\ b = \frac{ \sum_{i = 1}^{n} y_{i} - k \sum_{i = 1}^{n} x_{i} }{n} \end{cases}

Эту систему можно немного упростить. Давайте посмотрим на второе уравнение. Представим его как:

b = \frac{ \sum_{i = 1}^{n} y_{i} }{n} - k \sdot \frac{ \sum_{i = 1}^{n} x_{i} }{n}

Что такое $\frac{ \sum_{i = 1}^{n} y_{i} }{n}$ ? Это среднее значение $y$ (потому что мы сумму всех элементов делим на количество). Обозначим его как $\overline{y}$ . Аналогично поступим с $x$ , там такое же среднее. В итоге получим:

b = \overline{y} - k \overline{x}

Согласитесь: без всех этих сумм гораздо проще. Теперь поступим как в школе: подставим $b$ в первое уравнение.

\sum_{i = 1}^{n} \left( \left( kx_{i} + b - y_{i} \right) \cdot x_{i} \right) = 0

\sum_{i = 1}^{n} \left( \left( kx_{i} + \overline{y} - k\overline{x} - y_{i} \right) \cdot x_{i} \right) = 0

Сократим все, что можно, и раскроем скобки:

\sum_{i = 1}^{n} \left( \left( k{(x}_{i} - \overline{x}) + \overline{y} - y_{i} \right) \cdot x_{i} \right) = 0

k \sum_{i = 1}^{n} \left( \left( x_{i} - \overline{x} \right) \cdot x_{i} \right) + \sum_{i = 1}^{n} \left( \left( \overline{y} - y_{i} \right) \cdot x_{i} \right) = 0

В принципе, этого уже хватает, чтобы все посчитать. Можно просто перекинуть второе слагаемое на другую сторону и поделить:

k \sum_{i = 1}^{n} \left( \left( x_{i} - \overline{x} \right) \cdot x_{i} \right) = - \sum_{i = 1}^{n} \left( \left( \overline{y} - y_{i} \right) \cdot x_{i} \right)

k = - \frac{ \sum_{i = 1}^{n} \left( \left( \overline{y} - y_{i} \right) \sdot x_{i} \right) }{ \sum_{i = 1}^{n} \left( \left( x_{i} - \overline{x} \right) \cdot x_{i} \right) }

Формулу расчета можно еще упростить. Как именно, я покажу в конце статьи, чтобы не оставлять здесь еще больше формул. В итоге мы получаем:

\begin{cases} k = \frac{ \sum_{i = 1}^{n} \left( x_{i} - \overline{x} \right) \left(y_{i} - \overline{y} \right) }{ \sum_{i = 1}^{n} \left( x_{i} - \overline{x} \right)^{2} } \\ b = \overline{y} - k\overline{x} \end{cases}

Таким образом, для любого набора $x$ и $y$ мы можем посчитать коэффициенты. Ведь $k$ не зависит от $b$ . Считаем его по формуле, а потом, уже зная $k$ , находим $b$ . И в итоге у нас есть первый рабочий алгоритм машинного обучения.

Теперь, когда у нас есть все коэффициенты, мы легко можем посчитать ответ для любых входных параметров по все той же формуле:

\widehat{y} = kx + b

Пример использования

Вернемся к задаче определения веса человека по его росту. Допустим, у нас есть набор данных:

Рост (x), см	Вес (y), кг
154	43
196	107
172	73
185	80
161	66

В первую очередь, найдем средние значения:

$\overline{x} = 173.6$

$\overline{y} = 73.8$

Теперь нам надо найти коэффициенты. Начинаем с $k$ . Для каждого элемента считаем:

$\mathbf{x}$	$\mathbf{y}$	$\mathbf{x - \overline{x}}$	$\mathbf{y - \overline{y}}$
154	43	-19.6	-30.8
196	107	22.4	33.2
172	73	-1.6	-0.8
185	80	11.4	6.2
161	66	-12.6	-7.8

Теперь у нас есть все, чтобы посчитать $k$ по формуле:

k = \frac{ \sum_{i = 1}^{n} \left( x_{i} - \overline{x} \right) \left( y_{i} - \overline{y} \right) }{ \sum_{i = 1}^{n} \left( x_{i} - \overline{x} \right)^{2} }

В итоге получим $k = \frac{1517.6}{1177.2} \approx 1.29$

Теперь считаем $b$ :

b = \overline{y} - k \cdot \overline{x} = 73.8 - 1.29 \cdot 173.6 = - 150.144

Теперь, когда у нас есть все коэффициенты, мы можем предсказывать вес для любого роста. Пусть у нас будет баскетболист с ростом 210 сантиметров. Попробуем предсказать его вес:

210 \cdot 1.29 - 150.144 \approx 120.75

Выглядит вполне правдоподобно.

Обобщаем

Теперь, когда мы умеем находить коэффициенты для одномерного случая, можно попробовать сделать это для случая многомерного. Тогда наша основная формула будет такой:

\widehat{y} = k_{1}x_{1} + k_{2}x_{2} + \ldots + k_{m}x_{m} + b

Оптимизировать же мы будем функцию

\sum_{i = 1}^{n} \left( y_{i} - \left( k_{1}x_{1i} + k_{2}x_{2i} + \ldots + k_{m}*x_{mi} + b \right) \right)^{2}

Сама оптимизация делается по тому же принципу. В итоге получается система из $m$ производных по каждому коэффициенту $k_{i}$ , одну производную по $b$ . В итоге мы получим систему из $m + 1$ уравнения с $m + 1$ неизвестным.

Решение такой системы уже будет лежать вне плоскости школьной математики, но оно вполне осуществимо. В результате мы так же найдем необходимые коэффициенты.

Если в случае с одним аргументом наша функция задавала прямую, в случае двух аргументов это уже будет плоскость, а при большем количестве — гиперплоскость.

Не все так радужно

Казалось бы, если обучение настолько быстрое и простое (всего лишь посчитать несколько формул), почему линейная регрессия не применяется повсеместно? Ответ тут лежит в слове «линейная». И сейчас попробуем разобраться почему.

Давайте вновь рассмотрим простейший случай. Зависимость $y$ от $x$ у нас линейная. Это значит, что мы можем хорошо предсказывать значения, только если в реальном мире зависимость между данными линейная или близка к такой. Если есть серьезные отличия от линейной зависимости, модель линейной регрессии по-прежнему будет давать какой-то результат, но он будет сильно расходиться с реальностью.

На картинке выше мы видим нелинейное распределение реальных данных (синие точки). Модель обучилась, постаравшись минимизировать расстояния между реальными данными и предсказаниями (красные точки). Но хоть расстояние и минимально возможное для данного случая, предсказание модели в зависимости от области может как быть относительно точным (2-я и 4-я точки), так и очень неточным (3-я точка).

Варианты с двумя или более аргументами также подвержены такому ограничению (но только уже не прямой, а плоскости или гиперплоскости).

Именно из-за этой своей особенности линейная регрессия применяется сравнительно редко. И применяется она только после обязательной проверки данных на линейную зависимость. Однако, если такая зависимость есть, мы получаем очень быстрый инструмент, гораздо быстрее любой из других моделей машинного обучения.

Например, линейная регрессия очень часто применяется в экономике, где линейность зависимости точно известна: прогнозирование продаж, активов, ВВП и так далее. Также она применяется банками и страховыми компаниями. В этой сфере важно не просто дать предсказание, но и объяснить его. И линейная регрессия лучше всего для этого подходит. Все ее параметры видны и понятны. В отличие от, например, нейросетей, которые, как мы увидим в следующих статьях цикла, для внешнего наблюдателя являются «черным ящиком».

Вместо послесловия

Как и обещал, показываю, как можно упростить формулы коэффициентов. Для этого нам понадобятся пара математических трюков и знания статистики.

Напомню исходное выражение:

k \sum_{i = 1}^{n} \left( \left( x_{i} - \overline{x} \right) \cdot x_{i} \right) + \sum_{i = 1}^{n} \left( \left( \overline{y} - y_{i} \right) \cdot x_{i} \right) = 0

Будем рассматривать только его первое слагаемое. Добавим к $x_{i}$ среднее значение, и сразу вычтем его для компенсации:

k \sum_{i = 1}^{n} \left( \left( x_{i} - \overline{x} \right) \cdot x_{i} \right) = k \sum_{i = 1}^{n} \left( \left(x_{i} - \overline{x} \right) \cdot \left(x_{i} + \overline{x} - \overline{x} \right) \right)

Раскроем скобки:

k \sum_{i = 1}^{n} \left( \left( x_{i} - \overline{x} \right) \cdot \left(x_{i} + \overline{x} - \overline{x} \right) \right) = k \sum_{i = 1}^{n} \left( x_{i}^{2} + x_{i} \overline{x} - x_{i} \overline{x} - x_{i} \overline{x} - {\overline{x}}^{2} + {\overline{x}}^{2} \right)

Разделим сумму на две части:

k \sum_{i = 1}^{n} \left( x_{i}^{2} + x_{i} \overline{x} - x_{i} \overline{x} - x_{i} \overline{x} - {\overline{x}}^{2} + {\overline{x}}^{2} \right) = k \sum_{i = 1}^{n} \left( x_{i}^{2} - x_{i} \overline{x} - x_{i} \overline{x} + {\overline{x}}^{2} \right) + k \sum_{i = 1}^{n} \left( x_{i}\overline{x} - {\overline{x}}^{2} \right)

В первой части мы видим формулу квадрата разности:

k \sum_{i = 1}^{n} \left( x_{i}^{2} - x_{i} \overline{x} - x_{i}\overline{x} + {\overline{x}}^{2} \right) = k \sum_{i = 1}^{n} \left( x_{i}^{2} - 2 x_{i} \overline{x} + {\overline{x}}^{2} \right) = k \sum_{i = 1}^{n} \left( x_{i} - \overline{x} \right)^{2}

Осталось разобраться со второй частью. Выносим $\overline{x}$ за сумму:

k \sum_{i = 1}^{n} \left( x_{i}\overline{x} - {\overline{x}}^{2} \right) = k \overline{x}\sum_{i = 1}^{n} \left( x_{i} - \overline{x} \right)

А вот теперь тот самый трюк со статистикой. $( x_{i} - \overline{x} )$ — это отклонение от среднего. И самое интересное, что сумма таких отклонений всегда равна нулю (это следует из статистики):

\sum_{i = 1}^{n} \left( x_{i} - \overline{x} \right) = 0

Таким образом эту часть выражения можно опустить.

Вернемся к исходному уравнению, и так же обработаем его вторую часть:

\sum_{i = 1}^{n} \left( \left( \overline{y} - y_{i} \right) \cdot x_{i} \right) = \sum_{i = 1}^{n} \left( \left( \overline{y} - y_{i} \right) \cdot \left( x_{i} - \overline{x} + \overline{x} \right) \right) = \sum_{i = 1}^{n} \left( \overline{y} - y_{i} \right) \cdot \left( x_{i} - \overline{x} \right) + \overline{x} \sum_{i = 1}^{n} \left( \overline{y} - y_{i} \right)

Второе слагаемое так же обратится в ноль, и мы получаем итоговое уравнение:

k \sum_{i = 1}^{n} \left( x_{i} - \overline{x} \right)^{2} + \sum_{i = 1}^{n} \left( \overline{y} - y_{i} \right)\cdot \left( x_{i} - \overline{x} \right) = 0

Отсюда, перенеся второе слагаемое направо, поменяв в нем знак и поделив, получаем:

k \sum_{i = 1}^{n} \left( x_{i} - \overline{x} \right)^{2} = \sum_{i = 1}^{n} \left( y_{i} - \overline{y} \right) \cdot \left( x_{i} - \overline{x} \right)

k = \frac{ \sum_{i = 1}^{n} \left( y_{i} - \overline{y} \right)*\left( x_{i} - \overline{x} \right) }{ \sum_{i = 1}^{n} \left( x_{i} - \overline{x} \right)^{2} }

Вопросы и ответы

Как мы научили нейросети воспроизводить физически достоверные текстуры

Описываем подход, позволяющий преобразовывать сложные многослойные материалы в компактные нейросетевые представления и выполнять их рендеринг в реальном времени с использованием трассировки лучей и аппаратного ускорения на тензорных ядрах GPU.

Линейная регрессия — проще некуда

Разбираемся с терминами

Учимся обучаться

Оптимизируем

Пример использования

Обобщаем

Не все так радужно

Вместо послесловия

Вопросы и ответы

Обсудить проект

С радостью проконсультируем вас любым из доступных способов.

Линейная регрессия — проще некуда

Разбираемся с терминами

Учимся обучаться

Оптимизируем

Пример использования

Обобщаем

Не все так радужно

Вместо послесловия

Вопросы и ответы

Что значит «линейная» в линейной регрессии?

Зачем в формуле потерь используется квадрат разности, а не просто модуль?

Что такое метод наименьших квадратов?

Почему мы приравниваем производные к нулю?

Как линейная регрессия работает с несколькими входными признаками?

Почему линейная регрессия применяется редко?

Что такое вектор входных данных?

Зачем нужна переменная bb (свободный коэффициент)?

Обсудить проект

С радостью проконсультируем вас любым из доступных способов.