군집과 분류의 차이 (difference of clustering and classification)

AI/Clustering

군집과 분류의 차이 (difference of clustering and classification)

슈퍼짱짱 2019. 8. 17. 09:00

1. 군집(clustering)

군집분석은 unsupervised learning(비지도 학습) 방법으로

군집의 수, 속성 즉 label이 사전에 알려져 있지 않을 때 사용하는 분석방법이다.

clustering 이란? 데이터 간의 유사도를 정의하고 그 유사도에 가까운 것부터 순서대로 합쳐가는 방법이다.

clustering 알고리즘의 예시로는 k-means 알고리즘, h-cluster 알고리즘 등이 있다.

군집분석은 사전에 label에 대한 정보를 모르기 때문에 각 개체가 어떤 군집에 들어갈까 예측하기보다는

이렇게 나누어질 수 있구나! 정도의 지식을 발견하는 것에 적합하다.

예를들어, 과일과 채소로 이루어진 다음과 같은 데이터가 있다고 가정해보자.

이것을 비슷한 모양끼리 군집화 하면 다음과 같다.

또는 과일끼리, 채소끼리 군집화 할 수도 있다.

이처럼 군집은 애초에 label(category)가 없기 때문에 순수 데이터상의 특징으로 유사도를 정의하여 그룹을 만든다.

2. 분류(classification)

분류는 군집과 반대로 supervised learning(지도 학습) 방법으로

각 개체별 그룹의 label이 사전에 알려져 있을 때 사용하는 분석방법이다.

classification 이란? 기존에 존재하는 데이터의 category 관계를 파악하고, 새롭게 관측된 데이터의 category를 스스로 판별하는 과정이다.

즉, 군집분석과 달리 각 개체가 어떤 그룹에 들어갈까 예측하는 기법이다.

위의 예시를 조금 바꾸어서 과일과 채소라고 미리 labeling된 다음과 같은 데이터가 있다고 가정하자.

위 데이터는 미리 과일과 채소로 labeling되어 있기 때문에 label대로 분류하면 다음과 같다.

이제 새로운 과일 또는 채소가 들어와도 각 그룹의 특징과 새 객체의 특징을 비교하여 분류할 수 있다.

3. clustering VS classification

군집과 분류의 가장 큰 차이점은

군집은 각 개체의 범주가 군집의 정보를 모를 때, 즉 label(category)이 없을 때

데이터 자체의 특성에 대해 알고자 하는 목적으로,

분류는 label(category)이 있을 때,

새로운 데이터의 그룹을 예측하기 위한 목적으로 하는 분석기법이다.

저작자표시

'AI > Clustering' 카테고리의 다른 글

[R] DBSCAN 파라미터 조정방법 in r (How to select parameters for 'dbscan()' in r) (2)	2019.08.26
[R] DBSCAN R 코드, 예시, 해석, 파라미터 조정 방법 (0)	2019.08.20
군집분석이란? (What is clustering algorithm?) (2)	2019.08.18

현재글군집과 분류의 차이 (difference of clustering and classification)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

슈퍼짱짱