AI/Regression

로지스틱 회귀분석이란? What is Logistic Regression?

슈퍼짱짱 2020. 3. 27. 09:42
반응형

로지스틱 회귀분석이란?

 

지난 시간 언젠가 수치형자료와 범주형자료에 대해 다룬 적이 있다.

 

>> 수치형 자료, 범주형 자료 바로가기

2019/08/12 - [통계 지식/기초통계] - [기초통계] 수치형 자료(numerical data)와 범주형 자료(categorical data)

2019/08/12 - [통계 지식/기초통계] - [기초통계] 수치형 자료(numerical data)와 범주형 자료(categorical data)

 

 

종속변수가 수치형 자료형일 때 Linear Regression으로 모델링한다면, 범주형 자료 중에서도 Binary(0 or 1로 표현할 수 있는 범주형 변수 ex- 남/여, 성공/실패, 합격/불합격 등) 일 때 Logistic Regression으로 Y에 대한 예측 모델을 만들 수 있다.

이것이 Linear Regression과 Logistic Regression의 차이이다.

 

* Linear Regression VS Logistic Regression

 

종속변수 Y가 수치형 자료일 때 Linear Regression,

종속변수 Y가 Binary 한 범주형 일 때 Logistic Regression

 

* 수치형 자료 VS 범주형 자료

 

 

 


 

1. 로지스틱 회귀분석을 사용하는 이유 :: Why Logistic Regression?

 

종속 변수 Y가 성공, 실패인 문제에 대해 예측 모델링을 한다고 가정하자.

(이 때, 성공을 1, 실패를 0이라 표현한다.)

 

이를 Linear Regression으로 모델링하고자 한다면 범위가 맞지 않는 문제가 발생한다.

 

 

 

Y의 범위는 0~1이어야 하는데, 연속형 변수를 모델링하는 Linear Regression의 범위는 \(-\infty\) ~ \(\infty\) 이다.

 

 

 

따라서 로짓 변환을 통해 직선형을 곡선형으로 Fitting한다.

 


 

2. 로지스틱 회귀분석 원리 :: How?

 

Linear Regression 에서 Y 자체를 \(Y = ax + b\) 로 모델링했다면, 

Logistic Regression도 비슷하게 성공할 확률을 \(P(Y=1) = ax + b\) 로 가정한다. (\(P(Y=1)\) : 성공할 확률)

 

그럼 위에서 말한 문제점이 발생한다. 

\(P(Y=1)\)의 범위는 0~1 인데, \(ax + b\)의 범위는 \(-\infty\) ~ \(\infty\) 로 맞지 않는다.

이를 해결하기 위해 \(P(Y=1)\)의 범위를 \(-\infty\) ~ \(\infty\) 로 변형시켜준다.

 

Approach 1

 

 


 

\(P(Y=1)\)의 범위를 \(-\infty\) ~ \(\infty\) 로 변형하는 방법은 Logit을 적용하는 것이다.

 

* 로짓이란?

 

Logit = Log Odds

 

* Odds란?

 

Odds = \(\frac{성공할 확률}{실패한 확률} = \frac{P}{1-P}\)

 

\(Odds \in (0,\infty) \because P \in (0,1)\)

 

-> Log Odds \(\in (-\infty,\infty)\)

 

즉, 

\(logit(P(Y=1)) = ax + b = log(\frac{P}{1-P})\)

 

정리하면 다음과 같다.

 

Approach 2

 

 


 

이제 \(log(\frac{P}{1-P}) = ax + b\) 를 \(P\) 에 대해 역변환하면 다음과 같다.

 

Approach 3

 

여기서 \(ax + b\)는 Linear Regression에서의 \(ax + b\)와 같다.

 

 

 

반응형