반응형

AI 86

[기초통계] 범주형 자료 표현하는 방법 (categorical data)

>> 통계학이란? 바로가기>> 모집단 VS 표본집단 바로가기>> 수치형자료와 범주형자료 바로가기 범주형 자료의 요약 이전 포스팅에서 수치형 자료의 범주형 자료의 정의 및 예시에 대해 알아보았다.이번에는 범주형 자료를 어떻게 표현하는지에 대해 알아보겠다. 범주형 자료에서는 각 관측값의 크기가 아니라 자료가 갖는 범주의 종류에 관심이 있으므로, 각 범주가 나타나는 횟수를 요약함으로써 범주형 자료의 개요를 파악할 수 있다. 1. 도수분포표(Frequency Table) 범주형 자료의 경우 각 관측값은 몇 개의 범주 중 하나의 값을 갖게 된다. 도수(frequency)란? 각 범주에 속하는 관측값의 개수를 그 범주에 도수라 한다. 상대도수(relative frequency)란? 도수를 전체 개수로 나눈 비율을 ..

AI/기초통계 2019.08.29

[논문] GoogleNet - Inception 리뷰 : Going deeper with convolutions

논문 링크 : https://arxiv.org/pdf/1409.4842.pdf Abstract 본 논문은 ImageNet Large-Scale Visual Recognition Challenge 2014(ILSVRC14)에서 classification 및 detection를 위한 최점단 기술인 codename Inception이라 불리는 deep convolutional neural network 아키텍처를 제안한다. 이 아키텍처의 주요 특징은 네트워크 안에서 컴퓨팅 리소스의 활용을 향상시켰다는 점이다.이는 컴퓨팅 예산은 일정하게 유지하면서, 네트워크의 깊이와 너비를 증가할 수 있도록 설계되었기 때문에 가능했다.ILSVRC14에 제출되었던 모델은 22layers deep 네트워크인 GoogLeNet이라고..

AI/논문 2019.08.27

[R] DBSCAN 파라미터 조정방법 in r (How to select parameters for 'dbscan()' in r)

DBSCAN에서 Eps와 MinPts 조정방법 in R 지난 포스팅에서 DBSCAN논문 리뷰와 R코드, 예시 및 파라미터 조정방법에 대해 알아보았다. >> DBSCAN 논문 리뷰 바로가기 >> DBSCAN in r 바로가기 지난 포스팅 파라미터 조정은 클러스터에 대한 사전 지식이 있을 때, 원하는 클러스터의 모양이 있을 때라면, 이번 포스팅에서는 클러스터에 대한 사전지식이 없을 때 Eps와 MinPts를 조정하는 방법을 알아보겠다. 논문에의하면, 1. 모든 포인트에 대하여 k번째로 가장 가까운 포인트와의 거리를 계산하고 2. 거리에 따라 내림차순으로 정렬한 다음 3. x축은 내림차순으로 정렬된 포인트의 index, y축은 내림차순으로 정렬된 거리로 그래프를 그린다. 4. 그래프에서 꺾이는 지점. 즉, e..

AI/Clustering 2019.08.26

[R] DBSCAN R 코드, 예시, 해석, 파라미터 조정 방법

지난 포스팅에서 DBSCAN논문을 리뷰해 보았다. 이번에는 R에서 DBSCAN을 어떻게 사용하는지 알아보고자 한다. >> DBSCAN 논문 리뷰 바로가기 >> 원하는 클러스터 모양이 없을 때 파라미터 조정방법 바로가기 in R 1. DBSCAN및 그래프를 그리기 위한 package loading - DBSCAN은 "fpc" library에 구현되어 있다. 1 2 library(fpc) library(ggplot2) cs 2. clustering할 데이터 생성 및 시각화 1 2 3 4 5 data db$isseed # 각 포인트별 core point인지 아닌지 [1] TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE [..

AI/Clustering 2019.08.20

[논문] DBSCAN 리뷰 : Density Based Spatial Clustering of Applications with Noise

이전 포스팅에서 군집분석에 대해 알아보았다. >> 군집과 분류의 차이 바로가기 >> 군집분석이란? (What is clustering?) 바로가기 >> DBSCAN in R 바로가기 >> R에서 DBSCAN 파라미터 조정방법 바로가기 이번 포스팅에서는 밀도 기반(Density-based) 군집분석인 DBSCAN 알고리즘 논문 해석 및 리뷰를 해보고자한다. 본 논문은 1996년에 나왔다는 점을 고려해야한다. 논문링크 : https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf Abstract 클러스터링 알고리즘은 공간(spatial) 데이터베이스에서 class를 식별하는 작업에 적합하다. - spatial database : 좌표공간에 뿌려진 데이터들 그러나, 대규모의 공..

AI/논문 2019.08.19

군집분석이란? (What is clustering algorithm?)

지난 포스팅에서 군집(clustering)과 분류(classification)의 간단한 정의와 차이점을 알아보았다. >> 군집과 분류의 차이 바로가기 이번에는 군집분석(clustering)에 대해 좀 더 깊게 알아보겠다. 1. 군집분석이란? 군집분석이란? 개체를 분류하기 위한 명확한 분류기준이 존재하기 않거나 기준이 밝혀지지 않은 상태에서 주어진 데이터들의 특성을 고려해 같은 그룹(클러스터)를 정의하고, 다른 클러스터의 개체보다 서로 더 유사한 개체가 되도록 그룹화하여 그룹의 대표성을 찾아내는 방법이다. 여기서 cluster란? cluster란? 비슷한 특성을 가진 데이터들의 집합이다. 2. 군집분석의 원리 군집분석의 원리는 크게 두 가지가 있다. ① 군집 내 응집도 최대화 ② 군집 내 분리도 최대화 ①..

AI/Clustering 2019.08.18

군집과 분류의 차이 (difference of clustering and classification)

1. 군집(clustering) 군집분석은 unsupervised learning(비지도 학습) 방법으로 군집의 수, 속성 즉 label이 사전에 알려져 있지 않을 때 사용하는 분석방법이다. clustering 이란? 데이터 간의 유사도를 정의하고 그 유사도에 가까운 것부터 순서대로 합쳐가는 방법이다. clustering 알고리즘의 예시로는 k-means 알고리즘, h-cluster 알고리즘 등이 있다. 군집분석은 사전에 label에 대한 정보를 모르기 때문에 각 개체가 어떤 군집에 들어갈까 예측하기보다는 이렇게 나누어질 수 있구나! 정도의 지식을 발견하는 것에 적합하다. 예를들어, 과일과 채소로 이루어진 다음과 같은 데이터가 있다고 가정해보자. 이것을 비슷한 모양끼리 군집화 하면 다음과 같다. 또는 과..

AI/Clustering 2019.08.17

[기초통계] 수치형 자료(numerical data)와 범주형 자료(categorical data)

자료를 요약하는 방법은 분석의 대상이 되는 자료의 형태에 따라 달라지게 되므로 먼저 자료를 그 형태에 따라 구분해야 한다. 자료는 일반적으로 수치형 자료(numerical data)와 범주형 자료(categorical data)의 두 가지 형태로 구분이 된다. 먼저, 양적 자료(quantitative data)라고도 불리는수치형 자료란? 관측된 값이 수치로 측정되는 자료를 말한다. 예를들어) 키, 몸무게, 시험 성적, 자동차 사고 건수 등이 있다. 수치형 자료를 관측되는 값의 성질에 따라 다시 연속형 자료(continuous data)와 이산형 자료(discrete data)로 구분된다. 연속형 자료란? 키, 몸무게와 같이 값이 연속적인 자료를 말한다. 이산형 자료란? 자동차 사고 건수와 같이 값이 셀 ..

AI/기초통계 2019.08.12

[기초통계] 모집단(Population)과 표본집단(Sample)

새로운 정보나 지식을 얻기 위해서는 관련된 자료를 수집하여햐 하는데,관련된 자료를 모두 수집한다는 것은 불가능하거나 매우 어려운 일이다. 이 때,모집단(Population)이란?얻고자 하는 정보와 관련 있는 모든 개체로부터 얻을 수 있는 모든 관측값들의 집합 또는통계적인 관찰이 되는 집단 전체라고 정의하며, 표본집단(Sample)이란?모집단의 일부분으로, 원하는 정보를 얻기 위해 수행한 관측과정을 통해 실제로 얻어진 관측결과의 집합 또는집단에서 어떤 방법으로 일부를 통계의 자료로 선택한 부분이라고 정의한다. 예를들어,어떤 연구자가 대한민국 남자의 평균 키 에 대해 알고싶다고 가정할 때,모집단은 대한민국 남자 전체이며,표본집단은 그 중 연구자가 실제로 수집한 값이다.

AI/기초통계 2019.08.11

[기초통계] 통계학이란?

1. 통계학의 어원 - "국가"라는 의미를 갖는 라틴어인 "status"에서 유래 - 주어진 자료를 기초로 해서 보편 타당한 이론을 추론해 내는 학문의 한 분야 2. 통계학의 역할 - 정보를 가지고 있는 자료를 효과적으로 수집하는 과정 - 이러한 자료를 합리적으로 해석하는 과정 - 이 자료로부터 올바른 결론을 유도하는 과정을 총체적으로 다루는 것 3. 통계학의 주된 목표 - 관측값으로부터 효율적인 추론을 할 수 있도록 표본추출의 과정과 범위를 설계한다. - 표본에 포함되어 있는 정보를 분석하여 모집단에 관하여 추론을 한다. 이때 추론에 수반되는 불확실성도 측정한다. 모집단이란? 표본집단이란?

AI/기초통계 2019.08.11
반응형