반응형

AI 71

군집분석이란? (What is clustering algorithm?)

지난 포스팅에서 군집(clustering)과 분류(classification)의 간단한 정의와 차이점을 알아보았다. >> 군집과 분류의 차이 바로가기 이번에는 군집분석(clustering)에 대해 좀 더 깊게 알아보겠다. 1. 군집분석이란? 군집분석이란? 개체를 분류하기 위한 명확한 분류기준이 존재하기 않거나 기준이 밝혀지지 않은 상태에서 주어진 데이터들의 특성을 고려해 같은 그룹(클러스터)를 정의하고, 다른 클러스터의 개체보다 서로 더 유사한 개체가 되도록 그룹화하여 그룹의 대표성을 찾아내는 방법이다. 여기서 cluster란? cluster란? 비슷한 특성을 가진 데이터들의 집합이다. 2. 군집분석의 원리 군집분석의 원리는 크게 두 가지가 있다. ① 군집 내 응집도 최대화 ② 군집 내 분리도 최대화 ①..

AI/Clustering 2019.08.18 (2)

군집과 분류의 차이 (difference of clustering and classification)

1. 군집(clustering) 군집분석은 unsupervised learning(비지도 학습) 방법으로 군집의 수, 속성 즉 label이 사전에 알려져 있지 않을 때 사용하는 분석방법이다. clustering 이란? 데이터 간의 유사도를 정의하고 그 유사도에 가까운 것부터 순서대로 합쳐가는 방법이다. clustering 알고리즘의 예시로는 k-means 알고리즘, h-cluster 알고리즘 등이 있다. 군집분석은 사전에 label에 대한 정보를 모르기 때문에 각 개체가 어떤 군집에 들어갈까 예측하기보다는 이렇게 나누어질 수 있구나! 정도의 지식을 발견하는 것에 적합하다. 예를들어, 과일과 채소로 이루어진 다음과 같은 데이터가 있다고 가정해보자. 이것을 비슷한 모양끼리 군집화 하면 다음과 같다. 또는 과..

AI/Clustering 2019.08.17

[기초통계] 수치형 자료(numerical data)와 범주형 자료(categorical data)

자료를 요약하는 방법은 분석의 대상이 되는 자료의 형태에 따라 달라지게 되므로 먼저 자료를 그 형태에 따라 구분해야 한다. 자료는 일반적으로 수치형 자료(numerical data)와 범주형 자료(categorical data)의 두 가지 형태로 구분이 된다. 먼저, 양적 자료(quantitative data)라고도 불리는수치형 자료란? 관측된 값이 수치로 측정되는 자료를 말한다. 예를들어) 키, 몸무게, 시험 성적, 자동차 사고 건수 등이 있다. 수치형 자료를 관측되는 값의 성질에 따라 다시 연속형 자료(continuous data)와 이산형 자료(discrete data)로 구분된다. 연속형 자료란? 키, 몸무게와 같이 값이 연속적인 자료를 말한다. 이산형 자료란? 자동차 사고 건수와 같이 값이 셀 ..

AI/기초통계 2019.08.12

[기초통계] 모집단(Population)과 표본집단(Sample)

새로운 정보나 지식을 얻기 위해서는 관련된 자료를 수집하여햐 하는데,관련된 자료를 모두 수집한다는 것은 불가능하거나 매우 어려운 일이다. 이 때,모집단(Population)이란?얻고자 하는 정보와 관련 있는 모든 개체로부터 얻을 수 있는 모든 관측값들의 집합 또는통계적인 관찰이 되는 집단 전체라고 정의하며, 표본집단(Sample)이란?모집단의 일부분으로, 원하는 정보를 얻기 위해 수행한 관측과정을 통해 실제로 얻어진 관측결과의 집합 또는집단에서 어떤 방법으로 일부를 통계의 자료로 선택한 부분이라고 정의한다. 예를들어,어떤 연구자가 대한민국 남자의 평균 키 에 대해 알고싶다고 가정할 때,모집단은 대한민국 남자 전체이며,표본집단은 그 중 연구자가 실제로 수집한 값이다.

AI/기초통계 2019.08.11 (2)

[기초통계] 통계학이란?

1. 통계학의 어원 - "국가"라는 의미를 갖는 라틴어인 "status"에서 유래 - 주어진 자료를 기초로 해서 보편 타당한 이론을 추론해 내는 학문의 한 분야 2. 통계학의 역할 - 정보를 가지고 있는 자료를 효과적으로 수집하는 과정 - 이러한 자료를 합리적으로 해석하는 과정 - 이 자료로부터 올바른 결론을 유도하는 과정을 총체적으로 다루는 것 3. 통계학의 주된 목표 - 관측값으로부터 효율적인 추론을 할 수 있도록 표본추출의 과정과 범위를 설계한다. - 표본에 포함되어 있는 정보를 분석하여 모집단에 관하여 추론을 한다. 이때 추론에 수반되는 불확실성도 측정한다. 모집단이란? 표본집단이란?

AI/기초통계 2019.08.11

[논문] GAN 리뷰 : Generative Adversarial Nets

Generative Adversarial Nets 논문 링크 : https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf Abstract 우리는 적대적인(adversarial) 과정을 통해 생성모델을 평가하는 새 프레임워크를 제안한다. 생성 모델 G : 데이터의 분포를 학습하는 모델감별 모델 D : 생성모델 G로부터가 아닌, 훈련 데이터로 부터 나왔을 확률을 추정하는 감별 모델G 모델 훈련 과정은 D가 실수할 확률을 최대화 하는 것이다.이 프레임워크는 minimax 2인 게임이다.임의의 함수 G와 D의 공간에서, G는 훈련 데이터의 분포를 복구하고, D는 항상 1/2이 되는 고유한 솔루션이 존재한다.즉, G는 훈련 데이터의 분포를 학습하여, 임..

AI/논문 2019.02.22

[논문] ADGAN 리뷰 : ANOMALY DETECTION WITH GENERATIVE ADVERSARIAL NETWORKS

ANOMALY DETECTION WITH GENERATIVE ADVERSARIAL NETWORK(ADGAN)ICLR 2018 논문 링크 : https://openreview.net/forum?id=S1EfylZ0Z Abstract low-dimensional problems에서는 좋은 anomaly detection 방법들이 존재하지만, 이미지와 같은 high-dimensional problem에는 효과적인 방법이 없다.본 논문에서 GAN을 이용한 anomaly detection에 대한 새로운 접근을 제안한다.우리의 방법은 고려중인 sample을 감안할 때, generator의 latent space안에서 good representation을 검색하는 것에 기반한다.만약, representation이 발..

AI/논문 2018.12.04 (1)

[논문] SRGAN 리뷰 : Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network(SRGAN)arXiv : 25 May 2017 논문 링크 : https://arxiv.org/pdf/1609.04802.pdf Abstract 더 빠르고 깊은 CNN을 사용한 single image super-resolution의 정확도와 속도에도 불구하고, 한 가지 중요한 문제가 남아있다. : large upscaling에서 미세한 texture details은 어떻게 복구할 것인가? * upscaling : ex) 4X upscaling -> 16X pixel최근 연구들은 meas squared reconstruction error(MSE)를 mini..

AI/논문 2018.11.05 (2)

KL divergence(Kullback–Leibler)

Kullback–Leibler divergence - 두 확률분포의 차이를 계산하는 데에 사용하는 함수- 두 확률변수에 대한 확률분포 {\displaystyle P,Q}가 있을 때, 두 분포의 KL divergence는 다음과 같이 정의 - KL divergence는 어떠한 확률분포 {\displaystyle P}가 있을 때, 그 분포를 근사적으로 표현하는 확률분포 {\displaystyle Q}를 {\displaystyle P} 대신 사용할 경우 엔트로피 변화를 의미즉, 의 분포를 사용하고 싶은데 모를 때, 분포로 추정하기 위해 사용 결국, ( 대신 를 사용할 때의 cross entropy)와 (원래의 분포가 가지는 entropy)의 차이는 다음과 같으며, 이는 과 동일{\displaystyle D_{..

AI/잡지식 2018.09.21 (2)

curse of dimensionality - 차원의 저주

차원의 저주 - 차원이 늘어남에 따라 필요한 데이터 양이 급격하게 증가즉, 같은 공간의 비율을 설명하기 위해 필요한 데이터 양이 급격히 증가 - 1차원에서 20%의 공간을 채우기 위해서는 변수 1개당 20%의 데이터만 있으면 된다. - 하지만, 2차원에서 20%의 공간을 채우기 위해서는 변수 1개당 약 45%의 데이터가 필요하다.∵ 0.45*0.45 ≒ 0.2 - 마찬가지로, 3차원 공간에서 20%의 공간을 채우기 위해서는 변수 1개당 약 58%의 데이터가 필요하다.∵ 0.58*0.58*0.58 ≒ 0.2 문제점 - 차원이 늘어나면 해당 공간을 설명하기에 데이터가 부족하므로 overfitting문제가 발생따라서 모델의 성능이 떨어진다.

AI/잡지식 2018.09.20 (2)
반응형