Processing math: 100%

AI/Regression_Classification

Linear Regression :: Least Square Method(최소제곱법, 최소자승법) :: 회귀 계수 추정

슈퍼짱짱 2024. 9. 3. 13:56
반응형

선형 회귀분석에서 회귀 계수(모수) 추정하는 방법 : 최소제곱법, 최소자승법

 

Linear Regression은 x(독립변수)로 y(종속변수)를 가장 잘 설명할 수 있는 선형식을 찾아 y값을 예측할 수 있는 모델을 만드는 기법이다.

x변수의 갯수가 n개라 할 때 추정되는 선형식은 다음과같다.

 

ˆy=β0+β1x1+β2x2+...+βnxn

 

이 때 저 β들을 회귀 계수라 부르며, 이를 추정하는 방법을 최소제곱법(=최소자승법=Least Square Method)이라 한다.

 


 

최소제곱법의 기본 원리는 잔차(관측값과 예측값의 차이) 제곱 합을 최소화 하는 회귀계수를 찾는 것이다.

 

 

x변수가 1개인 단순 선형 회귀라 가정 할 때 아래 식을 최소화하는 β를 찾으면 된다.

 

(yˆy)2=(y(β0+β1x1))2

 

그냥 더하는게 아니라 제곱을 해서 더하는 이유는 어떤 잔차는 0보다 크고, 어떤 잔차는 0보다 작을 텐데 이를 그냥 다 더해버리면 오히려 0에 가까운 값이 나올 수도 있기 때문이다.

 


 

2차식에서 최솟값은 미분해서 0이되는 값이다.

 

 

 

 

예를 들어

y=x2 에서 y를 최소화시키는 x값은 위의 식을 x로 미분해서 0이되는 값을 찾는것이다.

즉, 기울기가 0이되는 값이 최솟값이다.

 

 

이 원리 그대로 

 

(yˆy)2=(y(β0+β1x1))2

 

식이 최솟값이 되는 β0β1을 찾으려면 먼저 β0에 대해 편미분 해서 위의 식이 0이되는 β0값을 찾고, 다음으로 β1으로 편미분해서 위의 식이 0이되는 β1값을 찾으면 된다.

 


 

1. β0

위의 식을 β0로 편미분하면

 

n1i=0(yi(β0+β1xi))2β0

 

=n1i=02(yi(β0+β1xi))

 

=2n1i=0(yiβ0β1xi)

 

이다.

 

 

이 식이 0이 되도록 다음 식을 풀면

 

n1i=0(yiβ0β1xi)=0

 

-> n1i=0yi=nβ0+β1n1i=0xi

 

이다.

 

 

양 변을 n으로 나누면

 

ˉy=β0+β1ˉx

 

가 되며, 이를 β0에 대해 정리하면

 

β0=ˉyβ1ˉx

 

가 된다.

 


 

2. β1

 

이번엔 β1에 대해 편미분하면

 

n1i=0(yi(β0+β1xi))2β1

 

=n1i=02(yi(β0+β1xi))(xi)

 

=2n1i=0xi(yiβ0β1xi)

 

 

이 식이 0이 되도록 다음 식을 풀면

 

n1i=0xiyi=β0n1i=0xi+β1n1i=0x2

 

이다.

 

이 식에 위에서 구한 β0=ˉyβ1ˉx 를 대입하면

 

n1i=0xiyi=(ˉyβ1ˉx)n1i=0xi+β1n1i=0x2i=ˉyxiβ1ˉxxi+β1x2i

 

이다.

 

 

xi=nˉx 이므로 대입하면

 

xiyi=nˉyˉxβ1nˉx2+β1x2i

 

β1에 대해 풀면

 

β1(x2inˉx2)=xiyinˉyˉx

 

-> β1=xiyinˉyˉxx2inˉx2

 

이다.

 

분자, 분모를 모두 n1로 나누면

 

β1=(xiˉx)(yiˉy)(xiˉx)2

 

가 된다.

 


 

이렇게 계산한 β1을 다시 위에 β0=ˉyβ1ˉx 식에 대입하면 β0값도 추정할 수 있다.

 

반응형