반응형

기초통계 30

[기초통계] 통계적 추론방법 :: 구간추정(Interval Estimation), 신뢰구간이란? 신뢰수준의 의미, 해석

이전 포스팅에서 통계적 추론 방법 중 점추정에 대해 알아보았다. >> 통계적 추론 방법 :: 점추정 바로가기 이번에는 구간추정에 대해 알아보겠다. (2) 구간추정 (Interval Estimation) 점추정은 말 그대로 모수를 하나의 수치로 추정하고자 하는 것이다. 반면 구간추정은 하나의 수치를 구하는 것이 아니라, 추정량의 분포를 이용하여 표본으로부터 모수 값을 포함하리라고 예상되는 구간을 제시하는 것이다. 이 때 제시되는 구간을 신뢰구간(confidence interval)이라 부른다. 신뢰구간은 대개 (L, U)의 형태로 이루어지며, L과 U는 표본으로부터 계산된다. 즉, 매 표본마다 계산되는 신뢰구간이 서로 다를 수 있다. 만약 어떤 모평균에 대한 신뢰구간으로 (-∞, ∞)가 주어진다면, 어떤 ..

AI/기초통계 2019.10.29

[기초통계] 통계적 추론방법 :: 점추정(Point Estimation)

통계적 추론이란? 통계적 추론이란 추출된 표본으로부터 모집단의 일반적인 특성을 추론해내는 것을 뜻한다.표본이 추출되면 평균, 분산, 표준편차 등 표본에 대한 정보를 얻을 수 있다. 그러나 궁금한 것은 단 하나의 표본에 대한 정보가 아니라 모집단의 일반적인 특성이다. 예를 들어, 100명의 유권자를 대상으로 후보 A에 대한 지지여부를 조사했더니 60명이 지지했다고 하자. 이 때 관심사는 이 100명의 지지율이 아니라 전체 유권자의 지지율이 될 것이다. 단, 전체 유권자를 대상으로 조사하지 않는 한 전체 유권자의 지지율을 구할 수 없으므로, 표본이 가지고 있는 정보를 이용하여 이를 추측하게 되는데 이와 같은 과정이 통계적 추론의 한 과정이라고 할 수 있다. 통계적 추론이란? 표본이 갖고 있는 정보를 분석하여..

AI/기초통계 2019.10.23

표본평균의 분포 & 중심극한정리 in R

표본평균의 분포 모평균에 대한 추론은 표본의 평균 X̄와 그 분포를 이용한다.평균이 μ이고 분산이 σ^2인 모집단으로부터 크기가 n인 표본 X1, X2, ..., Xn을 추출했을 때, 표본평균 X̄의 기댓값과 분산은 다음과 같다. 표본평균 분포의 중심은 모집단의 중심 μ와 일치한다. 그러나 표집분포의 퍼짐 정도를 측정하는 표준편차는 표본의 크기에도 영향을 받는다. 즉, 표본의 크기 n이 증가함에 따라 표본평균의 표준편차는 n의 제곱근에 반비례해서 감소하는데 이는 표본평균의 분포가 μ를 중심으로 더욱 집중됨을 나타낸다. 예를 들어, 표본의 크기를 100배 늘리면, 표본평균의 표준편차는 1/10으로 감소하여 표집분포가 μ를 중심으로 더욱 집중된다. 중심극한정리란? 모집단의 분포가 정규분포가 아닌 경우 X̄의..

AI/기초통계 2019.10.19

표집분포란? What is sampling distribution?

표집분포란? What is sampling distribution? 주어진 표본으로부터 모집단의 성격을 알아내고자 하는 추론이 바로 통계학에서 가장 핵심적인 부분이다.우리는 모집단의 특성 중 어떠한 수치, 예를 들면, 모평균이나 모비율 또는 무표준편차 등에 관심이 있는 경우가 만흔데, 이러한 특성값을 모수라 하며 통계학에서 추론의 실제 대상이 된다. 모수란? 수치로 표현되는 모집단의 특성 모수의 참값은 미지의 상수로, 이를 알아내려면 모집단 전체를 다 조사해야만 한다. 그러나 이는 불가능한 경우가 많기 때문에 sampling된 표본으로 모수를 추론한다. 예를들어, 대한민국 전체 남자 키 평균을 알고싶다고 하자. 이 때, 모수는 대한민국 전체 남자 키 평균이며, 모집단은 대한민국 전체 남자가 된다. 이를 ..

AI/기초통계 2019.10.17

[기초통계] 정규분포란? What is normal distribution? 정규분포 in R

이전에 셀 수 있는 값들의 분포인 베르누이, 이항분포에 대해 알아보았다.이번에는 확률변수가 취하는 값들이 셀 수 있는 것이 아니라 시간, 몸무게, 0과 1사이의 임의의 실수처럼 셀 수 없는 연속적인 값을 가지는 연속확률분포들 중에서 대부분의 통계학 이론의 기본이 되는 정규분포에 관하여 알아보자. 연속확률분포란? 정규분포를 알아보기에 앞서, 연속확률분포에 대해 알아보자. 연속확률변수 X는 주어진 구간의 모든 값을 가질 수 있으므로, 앞서 배운 이산확률분포와는 다른 방식으로 표현해야 한다. 예를 들어, X~Bin(5, 0.25) 에서 P(X=4) = 5C4*(0.25)^4*(0.75)^1 = 0.015 이다. 그렇다면 X가 연속적인 값을 가질 수 있는 상황에서 X=4일 확률은 무엇일까? 신생아의 몸무게가 3..

AI/기초통계 2019.10.09

[기초통계] 정규확률그림이란? 정규확률그림 그리는 방법/원리 (qqplot in R)

정규확률그림이란? What is Q-Q plot? 많은 경우에 통계적인 절차나 분석 등에서 모집단의 분포가 정규분포를 따른 다는 가정을 하고 있다. 그렇다면 표본을 추출했을 때 이러한 정규모집단의 가정을 조사하는 방법은 어떤 것이 있을까? 그 방법 중 하나가 바로 정규확률그림으로 확인하는 것이다.정규점수그림(normal scores plot) 또는 정규확률그림(normal probability plot)이라 하는데 정규확률그림이라는 용어를 더 많이 쓴다. 이 때, 정규점수(normal scores)란 표준정규분포(mean=0,sd=1)에서의 이상적인 표본을 말한다. 즉, 표준정규분포의 확률밀도함수를 등확률 구간으로 나누어 주는 경계값(z값)을 의미한다. 분위수를 생각해보면 쉽다. n분위수에 해당하는 z값..

AI/기초통계 2019.10.08

[기초통계] 이항분포란? What is binomial distribution?

이전 포스팅에서 베르누이 시행에 대해 알아보았다. 본 포스팅에서는 이항분포에 대해 알아보겠다. 이항분포란? 성공할 확률이 p인 베르누이 시행을 n번 반복할 때에 일어나는 성공의 횟수를 X라 하면, 이 확률변수 X의 확률변수를 모수가 (n, p)인 이항분포라 한다. 즉, 쉽게 생각해 경우의 수가 2개뿐인 실험 1번 시행 - 베르누이/ 베르누이를 n번 시행 - 이항분포 이항분포(binomial distribution) n : 베르누이 시행의 반복 횟수 p : 각 시행에서 성공할 확률, P(S)X : n번 시행 중 성공의 횟수 이와 같이 정의된 확률변수 X를 이항 확률변수라 하고 그 분포를 이항분포라 한다. X~Bin(n,p)로 표현하기도 한다. 이항 확률변수 X가 취하는 값의 범위는 0, 1, 2, ...,..

AI/기초통계 2019.10.07

[기초통계] 베르누이 시행이란?

기초통계 - 이항분포와 관련있는 베르누이 두 그룹으로 나누어져 있는 모집안에서 표본을 추출하는 경우, 각 단계의 추출은 두 가지의 결론만을 갖게된다. 동전던지기가 그 예이다. 동전을 던졌을 때 그 결과는 앞면, 뒷면으로 두 가지만 나타난다. 이런 경우 매번 반복되는 추출(실험)을 통계학용어로 시행(trial)이라 부르고, 두 개의 가능한 결과 중 하나는 성공(S, success), 다른 하나는 실패(F, failure)라 부르는데, 이는 시행 결과가 두 개뿐임을 의미하며 진짜 성공과 실패와는 부관하다. 보통 관심있는 결과를 성공이라 부른다. 이 '성공'과 '실패'로 나타나는 시행이 반복되면서 다음과 같은 조건이 만족되는 경우 이를 베르누이 시행이라 부른다. 베르누이 시행(Bernoulli trial) (..

AI/기초통계 2019.10.06

[기초통계] 상관계수란? What is correlation coefficient?

상관계수란? 이전 포스팅에서 두 연속형 변수의 관계를 눈으로 확인하기 위한 산점도에 대해 알아보았다.산점도로부터 파악할 수 있는 관계는 객관성이 부족한 면이 있다. 예를 들어 동일한 크기의 좌표평면에서 좌표의 눈금을 변화시키면(변수의 측정 단위를 변화시키면) 두 변수의 관계가 다른 것처럼 보여질 수 있다. 따라서 좀 더 객관적으로 두 변수간의 관계를 알아볼 수 있는 상관계수에 대해 알아보겠다. 두 변수로 산점도를 그려보면 직선, 곡선 등 여러 형태를 가질 수 있는데, 여기서 가장 관심이 있는 경우는 직선의 형태이다. 산점도에서 점들이 얼마나 직선에 가까운가의 정도를 나타내는데 쓰이는 측도가 상관계수이다. 상관계수란? 두 변수 x,y 사이의 상관관계의 정도를 나타내는 수치 상관계수는 피어슨(Karl Pea..

AI/기초통계 2019.10.05

[기초통계] 산점도란? What is scatter plot?

두 연속형 변수의 요약 : 산점도 지난 포스팅에서 두 범주형 변수의 요약방법인 분할표에 대해 알아보았다.이번에는 두 연속형 변수의 관계를 알아보기 위한 첫 번째 단계인 산점도에 대해 알아보겠다. 두 연속형 변수 x와 y에 대해 1. 두 변수는 서로 관계가 있는가? 2. 있다면, 어떤 관계인가? 라는 질문을 할 수 있다.이 때, (x,y)에 대해 그림을 그려 그 관계를 눈으로 파악 할 수 있는데, 이 그림을 산점도라 한다. 산점도란? 변수 x를 수평축에 놓고 변수 y를 수직축에 놓은 후에 각 관측값의 짝을 좌표 위에 표시함으로써 얻게되는 그림 이렇게 그린 그림을 관측값들이 직선이나 곡선의 띠를 형성하고 있는지, 또는 특별한 경향 없이 무작위로 흩어져있는지 확인할 수 있다. 예)1990년도 국가별 국내총생산..

AI/기초통계 2019.10.04
반응형