반응형

AI/기초통계 30

분류 모델 성능 평가 지표 - Confusion Matrix란? :: 정확도(Accuracy), 정밀도(Precision), 재현도(Recall), F1 Score

분류 모델 성능 평가 지표 Linear 모델에 대해서는 R-Square, MSE 등 으로 모델의 성능을 평가한다.그렇다면 분류 모델에 대해서는 모델의 성능을 어떻게 평가할 수 있을까? 여러가지 방법이 있지만, 대표적으로 사용하는 정확도(Accuracy), 정밀도(Precision), 재현도(Recall), F1 Score 에 대해 알아보고자 한다. 1. Confusion Matrix (오차행렬) 위 네가지 지표를 설명하기 전에 Confusion Matrix를 먼저 설명하고자 한다. Confusion Matrix란? Training 을 통한 Prediction 성능을 측정하기 위해 예측 value와 실제 value를 비교하기 위한 표 여기서 ACTUAL VALUES는 실제값, PREDICTIVE VALUE..

AI/기초통계 2020.04.07

[기초통계] 모평균 비교 :: 짝비교 :: 독립이 아닌 모집단에서 :: t.test() in r (paired = T)

이전에 두 모집단이 독립 일 때 모평균을 비교하는 방법에 대해 알아보았다.이번에는 두 모집단이 독립이 아닐 때 모평균을 비교하는 방법인 짝비교에 대해 알아보겠다. >> 모평균 비교 바로가기>> 두 모집단이 독립일 때 :: 표본의 크기가 클 때 >> 두 모집단이 독립일 때 :: 표본의 크기가 작을 때(1)>> 두 모집단이 독립일 때 :: 표본의 크기가 작을 때(2) 독립이 아닌 두 모집단에서 모평균 비교하는 방법 :: 짝비교 두 종류의 처리효과를 비교할 때, 반응값들의 차이가 처리효과의 차이에 의해서만 발생하도록 실험단위들이 비슷한 조건을 갖는 것이 이상적이다. 그러나, 실제로는 이 조건을 만족시키기가 어렵다. 예를 들어, 두 진통제의 효과를 비교하기 위해 성별, 나이, 건강상태 등이 모두 동일한 환자들을..

AI/기초통계 2019.12.15

[기초통계] 모평균 비교 :: 독립인 모집단에서 표본의 크기가 작을 때 (2) :: t.test() in R

독립인 두 모집단에서 표본의 크기가 작을 때 모평균의 차 (\(\mu_{1} - \mu_{2}\)) 비교 표본의 크기가 작을 때는 일반적으로 두 모집단에 대하여 정규분포 가정이 필요하다. 또 다른 가정은 ① 두 모집단의 표준편차가 같다고 가정하는 경우와 ② 두 모집단의 표준편차가 다르다고 가정하는 경우이다. 이전 포스팅에서 독립인 두 모집단에서 표본의 크기가 작을 때, 모표준편차가 같은 경우에 대한 모평균 비교 방법에 대해 알아보았다. 이번에는 모표준편차가 다를 때 모평균 비교 검정 방법에 대해 알아보겠다. >> 독립인 두 모집단에서 표본의 크기가 작을 때 바로가기 2. 두 모집단의 표준편차가 다른 경우 * 독립인 두 모집단에서 표본의 크기가 작고 두 모표준편차가 다를 때, 모평균의 차 (\(\mu_{1..

AI/기초통계 2019.11.27

[기초통계] 모평균 비교 :: 독립인 모집단에서 표본의 크기가 작을 때 (1) :: t.test() in R

이전에 독립인 두 모집단에서 표본의 크기가 클 때 모평균 비교 검정하는 방법에 대해 알아보았다. 이번에는 표본의 크기가 작을 때 모평균 비교 검정하는 방법을 알아보겠다. >> 독립인 두 모집단에서 표본의 크기가 클 때 바로가기 독립인 두 모집단에서 표본의 크기가 작을 때 모평균의 차 (\(\mu_{1} - \mu_{2}\)) 비교 표본의 크기가 작을 때는 일반적으로 두 모집단에 대하여 정규분포 가정이 필요하다. 또 다른 가정은 ① 두 모집단의 표준편차가 같다고 가정하는 경우와 ② 두 모집단의 표준편차가 다르다고 가정하는 경우이다. 1. 두 모집단의 표준편차가 같다고 가정하는 경우 두 모집단의 표준편차가 같은지(\(\sigma_{1} = \sigma_{2}\)) 판단하기 위해 표본표준편차를 이용한다. 두 ..

AI/기초통계 2019.11.26

[기초통계] 모평균 비교 :: 독립인 두 모집단에서 표본의 크기가 클 때 비교 :: R에서 확인하기 :: t.test() in R

이전 포스팅에서 자료수집과정에 따른 두 모집단 비교 방법에 대해 알아보았다.이번에는 그 중 두 모집단이 독립일 경우에 모평균 차이를 추론하는 방법에 대해 알아보겠다. >> 두 모집단 비교 방법 바로가기 두 개의 독립 표본에서 모평균 차이 추론하는 방법 우선 두 모집단으로부터 추출된 표본과 그로부터 계산되는 통계량은 다음과 같다. \(X_{1}, \cdots, X_{n_{1}}\) : 평균이 \(\mu_{1}\)이고 표준편차가 \(\sigma_{1}\)인 모집단으로부터 추출된 표본\(\bar{X} = \frac{1}{n_{1}} \sum_{i=1}^{n_{1}} X_{i}\), \(s^2_{1} = \frac{1}{n_{1}-1} \sum_{i=1}^{n_{1}} (X_{i}-\bar{X})^2\) \(Y..

AI/기초통계 2019.11.25

[기초통계] 모평균 비교 :: 두 모집단이 독립일때와 독립이 아닐 때

이전에는 하나의 모집단에 대한 모평균을 추론하는 방법에 대해 알아보았다. 이번에는 하나의 모집단에 관한 것 뿐 아니라 두 모집단 간의 차이를 검정하는 방법에 대해 알아보겠다. 예) 두 종류의 강의방법에 의한 학습효과 비교기촌의 치료약과 새롭게 개발된 치료약의 효능 비교 두 모집단의 비교 두 모집단의 비교를 위한 추론과정은 자료를 어떻게 수집하느냐에 따라 추론방법이 달라지게 되는데, 대표적인 두 종류의 자료수집과정에 따른 추론방법을 알아보겠다. 1. 실험단위가 독립인 경우 예) 새로 개발된 치료약의 효능이 기존의 약보다 좋음을 검증하기 위해 건강상태가 비슷한 19마리의 쥐를 대상으로 병균을 투입한 후, 그 중에서 임의로 10마리의 쥐를 추출하여 그들에게는 기존의 약을 투약하고, 나머지 쥐들에게는 새로운 약..

AI/기초통계 2019.11.24

[기초통계] t-distribution :: 표본의 크기가 작을 때 :: n에 따른 t분포 in R

t-분포 이전에 표본의 크기가 큰 경우(30 이상)에 적용할 수 있는 모평균 \(\mu\)에 대한 추론방법을 알아보았다. 표본의 크기가 큰 경우에는 중심극한정리에 의해 표본평균 \(\bar{X}\)의 분포가 정규분포가 된다는 사실을 이용했다. 그러나, 표본의 크기가 작을 때에는 표본평균 \(\bar{X}\)의 분포는 모집단의 분포에 많은 영향을 받는다. 모집단의 분포가 \(N(\mu, \sigma^2)\)일 때 크기가 \(n\)인 표본의 평균 \(\bar{X}\)의 분포는 정확하게 \(N(\mu, \sigma^2/n)\)이다. 따라서 이를 표준화시키면 $$ \frac{\bar{X}-\mu}{\sigma/\sqrt n} ~ N(0, 1)$$이 된다. 그러나 일반적으로 \(\sigma\)는 미지수이기 때문에..

AI/기초통계 2019.11.23

[기초통계] 유의확률이란? P-value란?

유의확률(P-value)란? 이전에 주어진 유의수준을 갖는 기각역을 구하는 방법을 알아보았다. 표본으로부터 계산된 Z의 값으로부터 그 값이 기각역에 포함되면 \(H_{0}\)를 기각하고, 그렇지 않으면 \(H_{0}\)를 기각하지 않는다. 예를 들어) 유의수준 5%를 갖는 기각역으로 \(R : Z \le -1.645\)를 구하였다고 하자.표본으로부터 Z를 계산하여 z=-1.95로 얻었다면 \(H_{0}\)를 기각할 수 있고, z=-1.42를 얻었다면 \(H_{0}\)를 기각할 수 없다. 이 수치는 기각의 여부 뿐 아니라 얼마나 확실하게 기각할 수 있는가를 판단할 수도 있다.예를 들어 z=-2.22로 얻어졌다면, \(\alpha\)를 0.05에서 0.025로 줄여도 (\(R:Z \le -1.645\) ->..

AI/기초통계 2019.11.22

[기초통계] 기각역이란? :: 제 1종오류와 제 2종오류의 관계 :: 단측검정, 양측검정

앞 서 가설검정과 가설검정시 범할 수 있는 오류에 대해 알아보았다.이번에는 귀무가설을 기각하는 구간인 기각역에 대해 알아보겠다. 기각역이란? 우리는 모집단의 일부분인 표본으로부터 검정의 결론, 즉, \(H_{0}\)을 기각하거나, \(H_{0}\)을 기각하지 않고 유지하는 결정을 내리게 되는데, 이 때 이용되는 표본의 함수, 즉 통계량을 검정통계량이라 한다. 콜레스테롤 수치를 낮춰주기 위해 개발한 신약이 효과가 있는지 없는지 검정하는 예시에서 약 복용 후 실험자들의 콜레스테롤 수치의 평균 \(\bar{X}\)가 검정통계량이 된다. 약을 복용 전 콜레스테롤 수치의 평균이 200이라 하자. \(H_{0}\) : 신약이 효과가 없다. : \(\mu = 200\)\(H_{1}\) : 신약이 효과가 있다. : \..

AI/기초통계 2019.11.21

[기초통계] 가설검정에서 오류란? :: 제 1종오류란? 제 2종오류란? :: 제 1종오류가 제 2종오류보다 중요한 이유

지난시간에 가설검정에 대해 알아보았다. 이번에는 가설검정에서 범할 수 있는 두 가지 오류의 종류에 대해 알아보겠다.>> [기초통계] 가설검정이란? 바로가기https://leedakyeong.tistory.com/entry/%EA%B8%B0%EC%B4%88%ED%86%B5%EA%B3%84-%EA%B0%80%EC%84%A4%EA%B2%80%EC%A0%95%EC%9D%B4%EB%9E%80?category=843401 오류의 종류 가설검정에서 내리는 판단은 다음 두 가지 형태 중 하나로 나타난다.(1) \(H_{0}\)를 기각하고 \(H_{1}\)을 채택한다.(2) \(H_{0}\)를 기각할 수 없으므로 \(H_{0}\)을 유지한다. 위 두 결론은 모집단의 일부분인 표본으로부터 판단되어 내려지기 때문에 잘못된 ..

AI/기초통계 2019.11.14
반응형