1. 군집(clustering)
군집분석은 unsupervised learning(비지도 학습) 방법으로
군집의 수, 속성 즉 label이 사전에 알려져 있지 않을 때 사용하는 분석방법이다.
clustering 이란? 데이터 간의 유사도를 정의하고 그 유사도에 가까운 것부터 순서대로 합쳐가는 방법이다.
clustering 알고리즘의 예시로는 k-means 알고리즘, h-cluster 알고리즘 등이 있다.
군집분석은 사전에 label에 대한 정보를 모르기 때문에 각 개체가 어떤 군집에 들어갈까 예측하기보다는
이렇게 나누어질 수 있구나! 정도의 지식을 발견하는 것에 적합하다.
예를들어, 과일과 채소로 이루어진 다음과 같은 데이터가 있다고 가정해보자.
이것을 비슷한 모양끼리 군집화 하면 다음과 같다.
또는 과일끼리, 채소끼리 군집화 할 수도 있다.
이처럼 군집은 애초에 label(category)가 없기 때문에 순수 데이터상의 특징으로 유사도를 정의하여 그룹을 만든다.
2. 분류(classification)
분류는 군집과 반대로 supervised learning(지도 학습) 방법으로
각 개체별 그룹의 label이 사전에 알려져 있을 때 사용하는 분석방법이다.
classification 이란? 기존에 존재하는 데이터의 category 관계를 파악하고, 새롭게 관측된 데이터의 category를 스스로 판별하는 과정이다.
즉, 군집분석과 달리 각 개체가 어떤 그룹에 들어갈까 예측하는 기법이다.
위의 예시를 조금 바꾸어서 과일과 채소라고 미리 labeling된 다음과 같은 데이터가 있다고 가정하자.
위 데이터는 미리 과일과 채소로 labeling되어 있기 때문에 label대로 분류하면 다음과 같다.
이제 새로운 과일 또는 채소가 들어와도 각 그룹의 특징과 새 객체의 특징을 비교하여 분류할 수 있다.
3. clustering VS classification
군집과 분류의 가장 큰 차이점은
군집은 각 개체의 범주가 군집의 정보를 모를 때, 즉 label(category)이 없을 때
데이터 자체의 특성에 대해 알고자 하는 목적으로,
분류는 label(category)이 있을 때,
새로운 데이터의 그룹을 예측하기 위한 목적으로 하는 분석기법이다.
'AI > Clustering' 카테고리의 다른 글
[R] DBSCAN 파라미터 조정방법 in r (How to select parameters for 'dbscan()' in r) (2) | 2019.08.26 |
---|---|
[R] DBSCAN R 코드, 예시, 해석, 파라미터 조정 방법 (0) | 2019.08.20 |
군집분석이란? (What is clustering algorithm?) (2) | 2019.08.18 |