AI/Clustering

군집과 분류의 차이 (difference of clustering and classification)

슈퍼짱짱 2019. 8. 17. 09:00
반응형

1. 군집(clustering)

 

군집분석은 unsupervised learning(비지도 학습) 방법으로

군집의 수, 속성 즉 label이 사전에 알려져 있지 않을 때 사용하는 분석방법이다.

 

clustering 이란? 데이터 간의 유사도를 정의하고 그 유사도에 가까운 것부터 순서대로 합쳐가는 방법이다.

 

clustering 알고리즘의 예시로는 k-means 알고리즘, h-cluster 알고리즘 등이 있다.

 

군집분석은 사전에 label에 대한 정보를 모르기 때문에 각 개체가 어떤 군집에 들어갈까 예측하기보다는

이렇게 나누어질 수 있구나! 정도의 지식을 발견하는 것에 적합하다.

 

예를들어, 과일과 채소로 이루어진 다음과 같은 데이터가 있다고 가정해보자.

 

 

 

이것을 비슷한 모양끼리 군집화 하면 다음과 같다.

 

 

또는 과일끼리, 채소끼리 군집화 할 수도 있다.

 

이처럼 군집은 애초에 label(category)가 없기 때문에 순수 데이터상의 특징으로 유사도를 정의하여 그룹을 만든다.

 


 

2. 분류(classification)

 

분류는 군집과 반대로 supervised learning(지도 학습) 방법으로

각 개체별 그룹의 label이 사전에 알려져 있을 때 사용하는 분석방법이다.

 

classification 이란? 기존에 존재하는 데이터의 category 관계를 파악하고, 새롭게 관측된 데이터의 category를 스스로 판별하는 과정이다.

 

즉, 군집분석과 달리 각 개체가 어떤 그룹에 들어갈까 예측하는 기법이다.

 

위의 예시를 조금 바꾸어서 과일과 채소라고 미리 labeling된 다음과 같은 데이터가 있다고 가정하자.

 

 

위 데이터는 미리 과일과 채소로 labeling되어 있기 때문에 label대로 분류하면 다음과 같다.

 

이제 새로운 과일 또는 채소가 들어와도 각 그룹의 특징과 새 객체의 특징을 비교하여 분류할 수 있다.

 


 

3. clustering VS classification 

군집과 분류의 가장 큰 차이점은 

 

군집은 각 개체의 범주가 군집의 정보를 모를 때, 즉 label(category)이 없을 때 

데이터 자체의 특성에 대해 알고자 하는 목적으로,

 

분류는 label(category)이 있을 때,

새로운 데이터의 그룹을 예측하기 위한 목적으로 하는 분석기법이다.

 

 

반응형