두 범주형 변수의 요약 : 분할표
분할표란? 두 변수에 대한 관측값을 요약하고 해석하는 방법 중 하나로,
두 변수가 모두 범주형에 속할 때, 도수분포표를 2차원으로 확장한 형태로 요약할 수 있다.
한 변수에 대한 범주는 왼쪽에, 또 다른 변수에 대한 범주는 위쪽에 표시하고, 두 변수의 범주들이 교차하는 칸마다 각 변수의 범주를 동시에 갖는 관측값들의 수를 그 칸의 도수로 기록한다. 이렇게 도표로 요약된 자료를 분할표라 부른다.
예)
새로이 제한된 어떤 정책에 대한 지지여부를 알아보기 위하여 400명을 임의로 추출하여 조사했다.
표본으로 추출된 각 개인의 성별과 지지여부를 해당 범주에 따라 정리한 결과가 다음과 같다.
찬성 | 미결정 | 반대 | 합계 | |
남자 | 112 | 36 | 28 | 176 |
여자 | 84 | 68 | 72 | 224 |
합계 | 196 | 104 | 100 | 400 |
<두 변수 자료의 분할표>
이를 상대도수 분할표로 나타내면 다음과 같다.
찬성 | 미결정 | 반대 | 합계 | |
남자 | 0.28 | 0.09 | 0.07 | 0.44 |
여자 | 0.21 | 0.17 | 0.18 | 0.56 |
합계 | 0.49 | 0.26 | 0.25 | 1.00 |
상대도수를 이용하면 지지여부와 성별이 함께 관련된 분포 상태가 좀 더 명확히 드러난다. 예를들어, 남자이면서 이 정책을 산청하는 사람은 전체 400명 중 28%임을 알 수 있다. 즉, 성별의 한 범주와 지지여부의 한 범주에 동시에 해당되는 사람이 전체 조사자 중 차지하는 비율을 쉽게 알 수 있다.
분할표에서 각 칸에 도수나 상대도수 외에도 분석하려고 하는 목적에 따라 여러 가지 다른 값을 사용할 수 있다. 예를들면, 위 예제에서 남녀별 지지비율을 비교하고자 하는 경우에는 지지여부에 대한 상대도수분포를 남자와 여자에 대해 따로 구하면 된다. 즉, 남자에 대한 도수를 전체 남자의 수 176으로 나눈고, 여자에 대한 도수를 전체 여자의 수 224로 나누면 된다.
찬성 | 미결정 | 반대 | 합계 | |
남자 | 0.636 | 0.205 |
0.159 | 1.0 |
여자 | 0.375 | 0.304 | 0.321 | 1.0 |
이와 같이 실제 자료를 분할표로 요약하는 방법은 여러 가지가 있을 수 있다. 따라서 주어진 자료와 분석 목적에 따라 여러 라지 방법으로 시도해 보아야 한다.
'AI > 기초통계' 카테고리의 다른 글
[기초통계] 상관계수란? What is correlation coefficient? (0) | 2019.10.05 |
---|---|
[기초통계] 산점도란? What is scatter plot? (0) | 2019.10.04 |
[기초통계] 상자그림이란? R에서 boxplot 그리기 What is boxplot? (4) | 2019.09.28 |
[기초통계] 백분위수와 사분위수범위, quantile() in R (What is Percentile and Interquartile Range?) (2) | 2019.09.22 |
[기초통계] 분산이란? 표준편차란? (What is Variance and Standard Deviation?) (0) | 2019.09.19 |