AI/기초통계

[기초통계] 상관계수란? What is correlation coefficient?

슈퍼짱짱 2019. 10. 5. 08:00
반응형

상관계수란?


이전 포스팅에서 두 연속형 변수의 관계를 눈으로 확인하기 위한 산점도에 대해 알아보았다.

산점도로부터 파악할 수 있는 관계는 객관성이 부족한 면이 있다. 예를 들어 동일한 크기의 좌표평면에서 좌표의 눈금을 변화시키면(변수의 측정 단위를 변화시키면) 두 변수의 관계가 다른 것처럼 보여질 수 있다. 따라서 좀 더 객관적으로 두 변수간의 관계를 알아볼 수 있는 상관계수에 대해 알아보겠다.


두 변수로 산점도를 그려보면 직선, 곡선 등 여러 형태를 가질 수 있는데, 여기서 가장 관심이 있는 경우는 직선의 형태이다. 산점도에서 점들이 얼마나 직선에 가까운가의 정도를 나타내는데 쓰이는 측도가 상관계수이다.


상관계수란? 두 변수 x,y 사이의 상관관계의 정도를 나타내는 수치


상관계수는 피어슨(Karl Pearson)에 의하여 제안되었기 때문에 피어슨의 상관계수라고도 한다.

상관계수는 보통 r로 표시하며, 구하는 식은 다음과 같다.



Sxx, Syy, Sxy는 다음과 같이 구할 수도 있다.





상관계수의 특징


1. 상관계수 r은 항상 -1과 1 사이에 있다.


2. 상관계수의 절대값의 크기는 직선관계에 가까운 정도를 나타내고, 부호는 직선관계의 방향을 나타낸다.

즉, 

r > 0 - 양의 상관관계 : 산점도에서 점들이 우상향방향으로 띠를 형성한다. 즉, 한 변수의 값이 작으면 다른 변수의 값도 작고, 한 변수의 값이 크면 다른 변수의 값도 크다. 이러한 경향을 하나의 직선으로 나타냈을 때 그 직선의 기울기는 양수가 된다. 


r < 0 - 음의 상관관계 : 산점도에서 점들이 우하향방향으로 띠를 형성한다. 즉, 한 변수의 값이 작으면 다른 변수의 값은 크다. 이러한 경향을 하나의 직선으로 나타냈을 때 그 직선의 기울기는 음수가 된다.


r = +1 : 모든 점이 정확히 기울기가 양수인 직선 위에 위치한다.


r = -1 : 모든 점이 정확히 기울기가 음수인 직선 위에 위치한다.


상관계수의 절대값이 클수록, 즉 상관계수의 값이 1 또는 -1에 가까울 수록 두 변수 사이의 연관성이 크고, 0에 가까울 수록 매우 약함을 의미한다.


3. 상관계수의 단위는 없다. 따라서 단위가 다른 여러 쌍의 변수에서 직선관계의 정도를 비교할 수 있다.




두 변수의 산점도와 상관계수의 예시는 다음과 같다.

상관계수의 절대값이 클수록 점들이 직선의 형태에 가까운 것을 알 수 있다.

단, 상관계수가 0일 때는 어떤 선형관계가 없거나, 수직 또는 수평관계이거나 곡선관계를 띈다.

즉, 상관계수는 곡선관계의 측도로는 적합하지 않다.



자료분석시 주의해야 할 것은 큰 상관계수값이 항상 두 변수 사이의 어떤 인과관계를 의미하지는 않는다는 사실이다. 예를 들어, 크기가 아주 다른 몇 개의 도시에서 매월 발생한 살인사건의 발생건수 (x)와 종교집회 횟수 (y)를 조사하여 산점도를 그리면 아마도 +1에 가까운 상관계수를 가질 것이다. 


두 변수 사이에 인과관계가 성립한다면 살인사건의 발생을 줄이기 위해 종교집회를 억제하면 된다는 결론을 얻게 된다. 그러나, 사실은 도시주민의 수와 같은 제 3의 변수가 두 변수의 값이 같은 방향으로 변하도록 작용했다.

즉, 주민의 수가 많은 도시에는 살인사건도 많고 종교집회도 많지만, 주민의 수가 적은 도시에서는 모두 적은 편일 것이다. 따라서 두 변수의 높은 상관계수값은 주민의 수에 따른 결과이지, 두 변수 사이의 높은 인과관계를 나타내는 것은 아니다.


이 때 주민의 수와 같은 변수를 잠재변수(lurking variable)라 한다.

여기서 상관관계가 높다는 것은 두 변수 사이에 연관성이 높다는 것이지, 뚜렷한 인과관계를 의미하지는 않는다. 따라서 이를 이해하기 위해서는 해당 분야의 전문적인 해석이 필요하다.



반응형