종속변수가 수치형 자료형일 때 Linear Regression으로 모델링한다면, 범주형 자료 중에서도 Binary(0 or 1로 표현할 수 있는 범주형 변수 ex- 남/여, 성공/실패, 합격/불합격 등) 일 때 Logistic Regression으로 Y에 대한 예측 모델을 만들 수 있다.
이것이 Linear Regression과 Logistic Regression의 차이이다.
* Linear Regression VS Logistic Regression
종속변수 Y가 수치형 자료일 때 Linear Regression,
종속변수 Y가 Binary 한 범주형 일 때 Logistic Regression
* 수치형 자료 VS 범주형 자료
1. 로지스틱 회귀분석을 사용하는 이유 :: Why Logistic Regression?
종속 변수 Y가 성공, 실패인 문제에 대해 예측 모델링을 한다고 가정하자.
(이 때, 성공을 1, 실패를 0이라 표현한다.)
이를 Linear Regression으로 모델링하고자 한다면 범위가 맞지 않는 문제가 발생한다.
Y의 범위는 0~1이어야 하는데, 연속형 변수를 모델링하는 Linear Regression의 범위는 −∞ ~ ∞ 이다.
따라서 로짓 변환을 통해 직선형을 곡선형으로 Fitting한다.
2. 로지스틱 회귀분석 원리 :: How?
Linear Regression 에서 Y 자체를 Y=ax+b 로 모델링했다면,
Logistic Regression도 비슷하게 성공할 확률을 P(Y=1)=ax+b 로 가정한다. (P(Y=1) : 성공할 확률)