반응형

AI 83

[기초통계] 가설검정이란?

기초통계 :: 가설검정이란?가설검정이란? 모수에 대한 가설이 적합한지를 추출한 표본으로부터 판단하고자 하는 것 1. 가설검정이 필요한 이유/ 가설검정 예시 모 병원에서 콜레스테롤 수치를 낮춰주는 신약을 개발했다. 이 약이 정말 효과가 있는지 어떻게 알아보아야 할까? 실험 대상이 되는 성인 40명을 대상으로 약 복용 전 콜레스테롤 수치를 측정하여 평균\(\bar{X}\)을 계산하였다. 그 수치는 평균 200(mg/dl) 이고 표준편차는 24(mg/dl) 인 분포를 따른다고 하자. 약 복용 후 콜레스테롤 수치를 \(\mu\)라 하자. 직관적으로 생각했을 때 이 모평균 \(\mu\)를 알기 위해서는 실험 대상(표본) 뿐 아니라 모든 사람에 대해 측정해야 한다. 하지만 이는 불가능에 가깝기 때문에 표본에 대해서..

AI/기초통계 2019.11.13

[시계열 자료 분석] R에서 AirPassengers 데이터 선형계절추세모형 적합시키기

R에서 AirPassengers 데이터 선형계절추세모형(linear and seasonal trend model)에 적합시키는 방법 AirPassengers 데이터는 ts 타입의 데이터로, 1949년부터 1960년까지 매 월 한 포인트의 데이터를 가지고 있다. > AirPassengers Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec1949 112 118 132 129 121 135 148 148 136 119 104 1181950 115 126 141 135 125 149 170 170 158 133 114 1401951 145 150 178 163 172 178 199 199 184 162 146 1661952 171 180 193 181 183 218 230 ..

[R] stl() 이란? :: stl parameter :: stl s.window

R에서 시계열 데이터 분해하는 방법 time series 데이터를 체계적 성분으로 분해하는 함수 중 하나가 stl() 이다. stl(x, s.window, s.degree = 0, t.window = NULL, t.degree = 1, l.window = nextodd(period), l.degree = t.degree, s.jump = ceiling(s.window/10), t.jump = ceiling(t.window/10), l.jump = ceiling(l.window/10), robust = FALSE, inner = if(robust) 1 else 2, outer = if(robust) 15 else 0, na.action = na.fail) stl() 함수에 input으로 들어가는 데이터의 ..

[기초통계] 통계적 추론방법 :: 구간추정(Interval Estimation), 신뢰구간이란? 신뢰수준의 의미, 해석

이전 포스팅에서 통계적 추론 방법 중 점추정에 대해 알아보았다. >> 통계적 추론 방법 :: 점추정 바로가기 이번에는 구간추정에 대해 알아보겠다. (2) 구간추정 (Interval Estimation) 점추정은 말 그대로 모수를 하나의 수치로 추정하고자 하는 것이다. 반면 구간추정은 하나의 수치를 구하는 것이 아니라, 추정량의 분포를 이용하여 표본으로부터 모수 값을 포함하리라고 예상되는 구간을 제시하는 것이다. 이 때 제시되는 구간을 신뢰구간(confidence interval)이라 부른다. 신뢰구간은 대개 (L, U)의 형태로 이루어지며, L과 U는 표본으로부터 계산된다. 즉, 매 표본마다 계산되는 신뢰구간이 서로 다를 수 있다. 만약 어떤 모평균에 대한 신뢰구간으로 (-∞, ∞)가 주어진다면, 어떤 ..

AI/기초통계 2019.10.29

[기초통계] 통계적 추론방법 :: 점추정(Point Estimation)

통계적 추론이란? 통계적 추론이란 추출된 표본으로부터 모집단의 일반적인 특성을 추론해내는 것을 뜻한다.표본이 추출되면 평균, 분산, 표준편차 등 표본에 대한 정보를 얻을 수 있다. 그러나 궁금한 것은 단 하나의 표본에 대한 정보가 아니라 모집단의 일반적인 특성이다. 예를 들어, 100명의 유권자를 대상으로 후보 A에 대한 지지여부를 조사했더니 60명이 지지했다고 하자. 이 때 관심사는 이 100명의 지지율이 아니라 전체 유권자의 지지율이 될 것이다. 단, 전체 유권자를 대상으로 조사하지 않는 한 전체 유권자의 지지율을 구할 수 없으므로, 표본이 가지고 있는 정보를 이용하여 이를 추측하게 되는데 이와 같은 과정이 통계적 추론의 한 과정이라고 할 수 있다. 통계적 추론이란? 표본이 갖고 있는 정보를 분석하여..

AI/기초통계 2019.10.23

표본평균의 분포 & 중심극한정리 in R

표본평균의 분포 모평균에 대한 추론은 표본의 평균 X̄와 그 분포를 이용한다.평균이 μ이고 분산이 σ^2인 모집단으로부터 크기가 n인 표본 X1, X2, ..., Xn을 추출했을 때, 표본평균 X̄의 기댓값과 분산은 다음과 같다. 표본평균 분포의 중심은 모집단의 중심 μ와 일치한다. 그러나 표집분포의 퍼짐 정도를 측정하는 표준편차는 표본의 크기에도 영향을 받는다. 즉, 표본의 크기 n이 증가함에 따라 표본평균의 표준편차는 n의 제곱근에 반비례해서 감소하는데 이는 표본평균의 분포가 μ를 중심으로 더욱 집중됨을 나타낸다. 예를 들어, 표본의 크기를 100배 늘리면, 표본평균의 표준편차는 1/10으로 감소하여 표집분포가 μ를 중심으로 더욱 집중된다. 중심극한정리란? 모집단의 분포가 정규분포가 아닌 경우 X̄의..

AI/기초통계 2019.10.19

표집분포란? What is sampling distribution?

표집분포란? What is sampling distribution? 주어진 표본으로부터 모집단의 성격을 알아내고자 하는 추론이 바로 통계학에서 가장 핵심적인 부분이다.우리는 모집단의 특성 중 어떠한 수치, 예를 들면, 모평균이나 모비율 또는 무표준편차 등에 관심이 있는 경우가 만흔데, 이러한 특성값을 모수라 하며 통계학에서 추론의 실제 대상이 된다. 모수란? 수치로 표현되는 모집단의 특성 모수의 참값은 미지의 상수로, 이를 알아내려면 모집단 전체를 다 조사해야만 한다. 그러나 이는 불가능한 경우가 많기 때문에 sampling된 표본으로 모수를 추론한다. 예를들어, 대한민국 전체 남자 키 평균을 알고싶다고 하자. 이 때, 모수는 대한민국 전체 남자 키 평균이며, 모집단은 대한민국 전체 남자가 된다. 이를 ..

AI/기초통계 2019.10.17

[기초통계] 정규분포란? What is normal distribution? 정규분포 in R

이전에 셀 수 있는 값들의 분포인 베르누이, 이항분포에 대해 알아보았다.이번에는 확률변수가 취하는 값들이 셀 수 있는 것이 아니라 시간, 몸무게, 0과 1사이의 임의의 실수처럼 셀 수 없는 연속적인 값을 가지는 연속확률분포들 중에서 대부분의 통계학 이론의 기본이 되는 정규분포에 관하여 알아보자. 연속확률분포란? 정규분포를 알아보기에 앞서, 연속확률분포에 대해 알아보자. 연속확률변수 X는 주어진 구간의 모든 값을 가질 수 있으므로, 앞서 배운 이산확률분포와는 다른 방식으로 표현해야 한다. 예를 들어, X~Bin(5, 0.25) 에서 P(X=4) = 5C4*(0.25)^4*(0.75)^1 = 0.015 이다. 그렇다면 X가 연속적인 값을 가질 수 있는 상황에서 X=4일 확률은 무엇일까? 신생아의 몸무게가 3..

AI/기초통계 2019.10.09

[기초통계] 정규확률그림이란? 정규확률그림 그리는 방법/원리 (qqplot in R)

정규확률그림이란? What is Q-Q plot? 많은 경우에 통계적인 절차나 분석 등에서 모집단의 분포가 정규분포를 따른 다는 가정을 하고 있다. 그렇다면 표본을 추출했을 때 이러한 정규모집단의 가정을 조사하는 방법은 어떤 것이 있을까? 그 방법 중 하나가 바로 정규확률그림으로 확인하는 것이다.정규점수그림(normal scores plot) 또는 정규확률그림(normal probability plot)이라 하는데 정규확률그림이라는 용어를 더 많이 쓴다. 이 때, 정규점수(normal scores)란 표준정규분포(mean=0,sd=1)에서의 이상적인 표본을 말한다. 즉, 표준정규분포의 확률밀도함수를 등확률 구간으로 나누어 주는 경계값(z값)을 의미한다. 분위수를 생각해보면 쉽다. n분위수에 해당하는 z값..

AI/기초통계 2019.10.08

[기초통계] 이항분포란? What is binomial distribution?

이전 포스팅에서 베르누이 시행에 대해 알아보았다. 본 포스팅에서는 이항분포에 대해 알아보겠다. 이항분포란? 성공할 확률이 p인 베르누이 시행을 n번 반복할 때에 일어나는 성공의 횟수를 X라 하면, 이 확률변수 X의 확률변수를 모수가 (n, p)인 이항분포라 한다. 즉, 쉽게 생각해 경우의 수가 2개뿐인 실험 1번 시행 - 베르누이/ 베르누이를 n번 시행 - 이항분포 이항분포(binomial distribution) n : 베르누이 시행의 반복 횟수 p : 각 시행에서 성공할 확률, P(S)X : n번 시행 중 성공의 횟수 이와 같이 정의된 확률변수 X를 이항 확률변수라 하고 그 분포를 이항분포라 한다. X~Bin(n,p)로 표현하기도 한다. 이항 확률변수 X가 취하는 값의 범위는 0, 1, 2, ...,..

AI/기초통계 2019.10.07
반응형