선형 회귀분석에서 회귀 계수(모수) 추정하는 방법 : 최소제곱법, 최소자승법
Linear Regression은 x(독립변수)로 y(종속변수)를 가장 잘 설명할 수 있는 선형식을 찾아 y값을 예측할 수 있는 모델을 만드는 기법이다.
x변수의 갯수가 n개라 할 때 추정되는 선형식은 다음과같다.
ˆy=β0+β1x1+β2x2+...+βnxn
이 때 저 β들을 회귀 계수라 부르며, 이를 추정하는 방법을 최소제곱법(=최소자승법=Least Square Method)이라 한다.
최소제곱법의 기본 원리는 잔차(관측값과 예측값의 차이) 제곱 합을 최소화 하는 회귀계수를 찾는 것이다.

x변수가 1개인 단순 선형 회귀라 가정 할 때 아래 식을 최소화하는 β를 찾으면 된다.
∑(y−ˆy)2=∑(y−(β0+β1x1))2
그냥 더하는게 아니라 제곱을 해서 더하는 이유는 어떤 잔차는 0보다 크고, 어떤 잔차는 0보다 작을 텐데 이를 그냥 다 더해버리면 오히려 0에 가까운 값이 나올 수도 있기 때문이다.
2차식에서 최솟값은 미분해서 0이되는 값이다.

예를 들어
y=x2 에서 y를 최소화시키는 x값은 위의 식을 x로 미분해서 0이되는 값을 찾는것이다.
즉, 기울기가 0이되는 값이 최솟값이다.
이 원리 그대로
∑(y−ˆy)2=∑(y−(β0+β1x1))2
식이 최솟값이 되는 β0와 β1을 찾으려면 먼저 β0에 대해 편미분 해서 위의 식이 0이되는 β0값을 찾고, 다음으로 β1으로 편미분해서 위의 식이 0이되는 β1값을 찾으면 된다.
1. β0
위의 식을 β0로 편미분하면
∑n−1i=0(yi−(β0+β1xi))2∂β0
=∑n−1i=0−2(yi−(β0+β1xi))
=−2∑n−1i=0(yi−β0−β1xi)
이다.
이 식이 0이 되도록 다음 식을 풀면
∑n−1i=0(yi−β0−β1xi)=0
-> ∑n−1i=0yi=nβ0+β1∑n−1i=0xi
이다.
양 변을 n으로 나누면
ˉy=β0+β1ˉx
가 되며, 이를 β0에 대해 정리하면
β0=ˉy−β1ˉx
가 된다.
2. β1
이번엔 β1에 대해 편미분하면
∑n−1i=0(yi−(β0+β1xi))2∂β1
=∑n−1i=02(yi−(β0+β1xi))(−xi)
=−2∑n−1i=0xi(yi−β0−β1xi)
이 식이 0이 되도록 다음 식을 풀면
∑n−1i=0xiyi=β0∑n−1i=0xi+β1∑n−1i=0x2
이다.
이 식에 위에서 구한 β0=ˉy−β1ˉx 를 대입하면
∑n−1i=0xiyi=(ˉy−β1ˉx)∑n−1i=0xi+β1∑n−1i=0x2i=ˉy∑xi−β1ˉx∑xi+β1∑x2i
이다.
∑xi=nˉx 이므로 대입하면
∑xiyi=nˉyˉx−β1nˉx2+β1∑x2i
를 β1에 대해 풀면
β1(∑x2i−nˉx2)=∑xiyi−nˉyˉx
-> β1=∑xiyi−nˉyˉx∑x2i−nˉx2
이다.
분자, 분모를 모두 n−1로 나누면
β1=∑(xi−ˉx)(yi−ˉy)∑(xi−ˉx)2
가 된다.
이렇게 계산한 β1을 다시 위에 β0=ˉy−β1ˉx 식에 대입하면 β0값도 추정할 수 있다.
'AI > Regression_Classification' 카테고리의 다른 글
Linear Regression 기본 가정 네가지 :: 선형성, 다중공선성, 등분산성, 정규성 (3) | 2024.09.02 |
---|---|
로지스틱 회귀분석이란? What is Logistic Regression? (2) | 2020.03.27 |