반응형

기초통계 30

[기초통계] 분할표란? What is contingency table?

두 범주형 변수의 요약 : 분할표 분할표란? 두 변수에 대한 관측값을 요약하고 해석하는 방법 중 하나로, 두 변수가 모두 범주형에 속할 때, 도수분포표를 2차원으로 확장한 형태로 요약할 수 있다. 한 변수에 대한 범주는 왼쪽에, 또 다른 변수에 대한 범주는 위쪽에 표시하고, 두 변수의 범주들이 교차하는 칸마다 각 변수의 범주를 동시에 갖는 관측값들의 수를 그 칸의 도수로 기록한다. 이렇게 도표로 요약된 자료를 분할표라 부른다. >>> 범주형자료란? 바로가기>>> 범주형자료 표현하는 방법 바로가기 예)새로이 제한된 어떤 정책에 대한 지지여부를 알아보기 위하여 400명을 임의로 추출하여 조사했다.표본으로 추출된 각 개인의 성별과 지지여부를 해당 범주에 따라 정리한 결과가 다음과 같다. 찬성 미결정 반대 합계..

AI/기초통계 2019.10.03

[기초통계] 상자그림이란? R에서 boxplot 그리기 What is boxplot?

앞서 리뷰했던 중심의 위치, 퍼진 정도 등의 수치들은 자료의 여러 성질을 나타내지만, 자료 전체의 대략적인 모양을 보여 주지는 못하는 단점이 있다. >> 평균 vs 중앙값 vs 최빈값 바로가기>> 분산 & 표준편차란? 바로가기 >> 백분위수 & 사분위수란? 바로가기 이에 이번 포스팅에서는 상자그림에 대해 알아보고 R에서 직접 구현하는 방법도 알아보겠다. 상자그림이란? 상자그림(boxplot)이란? 자료로부터 얻는 다섯 가지 요약수치인 최소값, Q1, Q2, Q3, 최대값을 가지고 그림을 그린것이다. box plot을 그리는 자세한 과정은 다음과 같다. 1. 사분위수(Q1, Q2, Q3)를 결정한다. 2. Q1과 Q3을 네모난 상자로 연결하고, 중앙값(Q2)의 위치에 수직선을 긋는다.3. IQR = Q3 ..

AI/기초통계 2019.09.28

[기초통계] 백분위수와 사분위수범위, quantile() in R (What is Percentile and Interquartile Range?)

지난 포스팅들에서 자료를 표현하는 방법에 대해 알아보았다. >> 평균 vs 중앙값 vs 최빈값 바로가기 >> 분산과 표준편차란? 바로가기 특히 지난 시간에는 퍼진 정도를 나타내는 분산과 표준편차에 대해 알아보았다. 이번에는 백분위수와 사분위수에 대해 알아보겠다. 백분위수란? What is Percentile? 중앙값은 전체의 관측값을 반으로 나누는 경계값이다. 즉, 중앙값은 전체의 관측값 중 50% 위치에 해당하는 값이다. 이 개념을 확장하여 전체 관측값을 크기 순서대로 배열했을 때, 전체의 관측값을 (100xp)%와 100x(1-p)%로 나눌 수 있는 값을 백분위수라 한다. 자료의 수가 n개 일때, 제 100 x p 백분위수는 그 값보다 작거나 같은 관측값의 개수가 np개 이상이고, 그 값보다 크거나 ..

AI/기초통계 2019.09.22

[기초통계] 분산이란? 표준편차란? (What is Variance and Standard Deviation?)

이전 포스팅에서는 자료의 분포를 파악하는 방법으로 중심의 측도를 소개했다. >> 평균 vs 중앙값 vs 최빈값 바로가기 중심위치를 아는 것은 분포를 파악하는데 있어서 중요한 요소이기는 하지만, 중심 위치만으로는 분포를 파악하는데 부족한 점이 많다. 예를 들어, 다음 그림을 보자. 1234ggplot(data.frame(x = c(-5, 5)), aes(x=x)) + stat_function(fun=dnorm, args=list(mean=0, sd=2)) + stat_function(fun=dnorm, args=list(mean=0, sd=1)) + theme_bw() Colored by Color Scriptercs 두 분포의 중심위치는 같지만, 분포의 퍼진 정도가 다르다. 따라서 본 포스팅에서는 퍼진 ..

AI/기초통계 2019.09.19

[기초통계] 평균 중앙값 최빈값 비교 (Mean VS Median VS Mode)

평균 VS 중앙값 VS 최빈값 1. 평균이란? 평균이란? 모든 관측값의 합을 자료의 개수로 나눈 것 예)89 74 91 88 72 84 의 평균을 구하여라. > (89+74+91+88+72+84)/6 = 83 2. 중앙값이란? 중앙값이란? 전체 관측값을 크기 순서로 배열했을 때 가운데 위치하는 값 단, 1) 자료의 개수(n)가 홀수 일 때 : (n+1)/2 번째 관측값2) 자료의 개수(n)가 짝수 일 때 : n/2 번째 관측값과 (n+1)/2 번째 관측값의 평균 예)89 74 91 88 72 84 의 중앙값을 구하여라. > 예제에 주어진 값을 크기 순서대로 배열하면 72 74 84 88 89 91 이며, 짝수개이다. 따라서 이 예제의 중앙값은 84와 88의 평균인 86이다. 중앙값에서는 관측값을 크기 순..

AI/기초통계 2019.09.02

[R] 도수분포표란? (frequency table in R)

도수분포표 in R 지난 포스팅에서 범주형 자료를 표현하는 방법에 대해 알아보았다.이번에는 그 중에서도 도수분포표에 대해 R 코드로 알아보겠다. >> 범주형 자료 표현하는 방법 바로가기 1. 도수분포표란? 범주형 자료의 경우 각 관측값은 몇 개의 범주 중 하나의 값을 갖게 된다. 도수(frequency)란? 각 범주에 속하는 관측값의 개수를 그 범주에 도수라 한다. 상대도수(relative frequency)란? 도수를 전체 개수로 나눈 비율을 그 범주의 상대도수라 한다. 도수분포표(frequency table)란? 범주형 자료에서 범주와 그 범주에 대응하는 도수와 상대도수를 나열하여 표를 작성한 것을 말한다. 예)한 회사에서 새로 개발한 자동차의 외형에 대하여 고객 150명을 임의로 뽑아 선호도를 조사..

R 2019.08.30

[기초통계] 범주형 자료 표현하는 방법 (categorical data)

>> 통계학이란? 바로가기>> 모집단 VS 표본집단 바로가기>> 수치형자료와 범주형자료 바로가기 범주형 자료의 요약 이전 포스팅에서 수치형 자료의 범주형 자료의 정의 및 예시에 대해 알아보았다.이번에는 범주형 자료를 어떻게 표현하는지에 대해 알아보겠다. 범주형 자료에서는 각 관측값의 크기가 아니라 자료가 갖는 범주의 종류에 관심이 있으므로, 각 범주가 나타나는 횟수를 요약함으로써 범주형 자료의 개요를 파악할 수 있다. 1. 도수분포표(Frequency Table) 범주형 자료의 경우 각 관측값은 몇 개의 범주 중 하나의 값을 갖게 된다. 도수(frequency)란? 각 범주에 속하는 관측값의 개수를 그 범주에 도수라 한다. 상대도수(relative frequency)란? 도수를 전체 개수로 나눈 비율을 ..

AI/기초통계 2019.08.29

[기초통계] 수치형 자료(numerical data)와 범주형 자료(categorical data)

자료를 요약하는 방법은 분석의 대상이 되는 자료의 형태에 따라 달라지게 되므로 먼저 자료를 그 형태에 따라 구분해야 한다. 자료는 일반적으로 수치형 자료(numerical data)와 범주형 자료(categorical data)의 두 가지 형태로 구분이 된다. 먼저, 양적 자료(quantitative data)라고도 불리는수치형 자료란? 관측된 값이 수치로 측정되는 자료를 말한다. 예를들어) 키, 몸무게, 시험 성적, 자동차 사고 건수 등이 있다. 수치형 자료를 관측되는 값의 성질에 따라 다시 연속형 자료(continuous data)와 이산형 자료(discrete data)로 구분된다. 연속형 자료란? 키, 몸무게와 같이 값이 연속적인 자료를 말한다. 이산형 자료란? 자동차 사고 건수와 같이 값이 셀 ..

AI/기초통계 2019.08.12

[기초통계] 모집단(Population)과 표본집단(Sample)

새로운 정보나 지식을 얻기 위해서는 관련된 자료를 수집하여햐 하는데,관련된 자료를 모두 수집한다는 것은 불가능하거나 매우 어려운 일이다. 이 때,모집단(Population)이란?얻고자 하는 정보와 관련 있는 모든 개체로부터 얻을 수 있는 모든 관측값들의 집합 또는통계적인 관찰이 되는 집단 전체라고 정의하며, 표본집단(Sample)이란?모집단의 일부분으로, 원하는 정보를 얻기 위해 수행한 관측과정을 통해 실제로 얻어진 관측결과의 집합 또는집단에서 어떤 방법으로 일부를 통계의 자료로 선택한 부분이라고 정의한다. 예를들어,어떤 연구자가 대한민국 남자의 평균 키 에 대해 알고싶다고 가정할 때,모집단은 대한민국 남자 전체이며,표본집단은 그 중 연구자가 실제로 수집한 값이다.

AI/기초통계 2019.08.11

[기초통계] 통계학이란?

1. 통계학의 어원 - "국가"라는 의미를 갖는 라틴어인 "status"에서 유래 - 주어진 자료를 기초로 해서 보편 타당한 이론을 추론해 내는 학문의 한 분야 2. 통계학의 역할 - 정보를 가지고 있는 자료를 효과적으로 수집하는 과정 - 이러한 자료를 합리적으로 해석하는 과정 - 이 자료로부터 올바른 결론을 유도하는 과정을 총체적으로 다루는 것 3. 통계학의 주된 목표 - 관측값으로부터 효율적인 추론을 할 수 있도록 표본추출의 과정과 범위를 설계한다. - 표본에 포함되어 있는 정보를 분석하여 모집단에 관하여 추론을 한다. 이때 추론에 수반되는 불확실성도 측정한다. 모집단이란? 표본집단이란?

AI/기초통계 2019.08.11
반응형