AI/기초통계

[기초통계] 수치형 자료(numerical data)와 범주형 자료(categorical data)

슈퍼짱짱 2019. 8. 12. 09:00
반응형

자료를 요약하는 방법은 분석의 대상이 되는 자료의 형태에 따라 달라지게 되므로 먼저 자료를 그 형태에 따라 구분해야 한다.

자료는 일반적으로 수치형 자료(numerical data)와 범주형 자료(categorical data)의 두 가지 형태로 구분이 된다.


먼저, 양적 자료(quantitative data)라고도 불리는

수치형 자료란? 관측된 값이 수치로 측정되는 자료를 말한다.


예를들어) 키, 몸무게, 시험 성적, 자동차 사고 건수 등이 있다.



수치형 자료를 관측되는 값의 성질에 따라 다시 연속형 자료(continuous data)와 이산형 자료(discrete data)로 구분된다.


연속형 자료란? 키, 몸무게와 같이 값이 연속적인 자료를 말한다.


이산형 자료란? 자동차 사고 건수와 같이 값이 셀 수 있는 자료를 말한다.


그러나, 연속형 자료라 할지라도 기록의 편리함이나 측정기구의 한계 때문에 반올림되거나 가장 가까운 눈금의 값을 얻게 되어 실제로는 이산형인 값을 갖게 된다. 

예를 들면) 키를 잴 때, 센티미터 단위까지만 기록하고 그 이하의 단위는 반올림되므로 기록된 값은 이산의 형태를 갖게 된다.

이때, 기록된 값은 이산의 형태이지만 실제로 관측 가능한 값은 연속적인 척도로 주어지기 때문에 연속형 자료라 한다.





다음으로 질적 자료라고도 불리는

범주형 자료란? 관측 결과가 몇 개의 범주 또는 향목의 형태로 나타나는 자료를 말한다.


예를들어) 성별(남, 여), 선호도(좋다, 그저 그렇다, 싫다), 혈액형(A, B, O, AB), 지역(서울, 부산, 대구, 광주 등) 등이 있다.


여기서 주의할 사실은 범주형 자료를 수치형 자료처럼 표현할 수 있다는 점이다.

남자를 1, 여자를 0으로 표현할 수도, 선호도를 1~3점으로 표현 할 수도 있다.

그러나 남자가 1, 여자가 0이라고 남자가 더 좋다거나 우위에 있다는 것을 뜻하지는 않으며,

선호도에서 싫다와 그저 그렇다, 좋다의 크기가 정확히 1씩 차이나는 것도 아니다. 또한, 싫다와 좋다가 1점과 3점이라고 3배차이난다고 할 수도 없다.

따라서 수치형 자료처럼 표현되어있는 범주형 자료를 잘 구분하여야 한다.



범주형 자료는 순위형 자료(ordinal data)와 명목형 자료(nominal data)로 구분할 수 있다.


순위형 자료란? 범주간에 순서의 의미가 있는 자료를 말한다.


예를들어) 선호도에서 '매우 좋다', '좋다', '그저 그렇다', '싫다', '매우 싫다' 라는 5가지 범주가 주어졌을 때, 이 5가지 범주에는 순서가 주어진다. 


이와 반대로

명목형 자료란? 혈액형과 같이 범주간에 순서의 의미가 없는 자료를 말한다.




정리하면, 다음과 같다.








반응형