Least squares and linear regression

Data의 주요 경향성을 나타내는 equation을 찾을 때

각각의 데이터와 우리가 가정한 linear equation간의 거리의 제곱을 최소화하는 방법이 가장 일반적인다. 연속함수에서 최소화한다는 것은 derivative = 0 이 되는 값을 찾는 것이다.

데이터가 $\vec{x} = {x_1, x_2, \dots x_n}$, $\vec{y} = {y_1, y_2, \dots y_n}$ 일 때 Linear regression에서는 이 데이터를 $a \mathbf{x}+b= \mathbf{y}$ 로 근사한다. 그럼 여기서 unknown인 a와 b를 찾아보자.

${a x_1 + b = y_1'} - y_1$, ${a x_2 + b = y_2'} - y_2$ 이 distance의 합이 최소가 되게 하는 a와 b가 답이된다.

따라서 정리하면

$\underset{a, b}{\min} \sqrt{(a x_1 + b - y_1)^2 + (a x_2 + b - y_2)^2 + \cdots + (a x_n + b - y_n)^2}$

인데 square root 안에 있는 거 minimize 하는 것이 square root 자체를 minimize하는 거랑 같은 것이니 square root는 있으나 마나 이다.

$\underset{a, b}{\min} (a x_1 + b - y_1)^2 + (a x_2 + b - y_2)^2 + \cdots + (a x_n + b - y_n)^2$

이 minimization을 풀기 위해서 일단 a에 대해서 미분하면

$2x_1(a x_1 + b - y_1) + 2x_2(a x_2 + b - y_2) + \cdots + 2x_n(a x_n + b - y_n) = 0$

이렇게 되고 이걸 정리하면

$2a x_1^2 + bx_1 - y_1x_1 + 2a x_2^2 + bx_2 - y_2x_2 + \cdots + 2a x_n^2 + bx_n - y_nx_n = 0$

더 정리하면

$2a (x_1^2 + x_2^2 + \cdots + x_n^2) = (y_1x_1 + y_2x_2 + \cdots + y_nx_n) - (bx_1 + bx_2 + \cdots +bx_n)$

마지막으로 정리하면

$a = \frac{(y_1x_1 + y_2x_2 + \cdots + y_nx_n)- (bx_1 + bx_2 + \cdots +bx_n)}{2(x_1^2 + x_2^2 + \cdots + x_n^2)}$

근데 우리는 $b$도 모르잖아.

그럼 또 $b$에 대해서도 미분하자.

$2(a x_1 + b - y_1) + 2(a x_2 + b - y_2) + \cdots + 2(a x_n + b - y_n) = 0$

정리하면

$b = \frac{(y_1 + y_2 + \cdots+ y_n) - a(x_1+ x_2+ \cdots + x_n)}{n}$

이건 그냥 일차 선형 방정식으로 근사한 경우에 한 한 것이지만 $a$와 $b$ 두 equations을 풀면 해결이 된다.