반응형

머신러닝 3

[R] DBSCAN 파라미터 조정방법 in r (How to select parameters for 'dbscan()' in r)

DBSCAN에서 Eps와 MinPts 조정방법 in R 지난 포스팅에서 DBSCAN논문 리뷰와 R코드, 예시 및 파라미터 조정방법에 대해 알아보았다. >> DBSCAN 논문 리뷰 바로가기 >> DBSCAN in r 바로가기 지난 포스팅 파라미터 조정은 클러스터에 대한 사전 지식이 있을 때, 원하는 클러스터의 모양이 있을 때라면, 이번 포스팅에서는 클러스터에 대한 사전지식이 없을 때 Eps와 MinPts를 조정하는 방법을 알아보겠다. 논문에의하면, 1. 모든 포인트에 대하여 k번째로 가장 가까운 포인트와의 거리를 계산하고 2. 거리에 따라 내림차순으로 정렬한 다음 3. x축은 내림차순으로 정렬된 포인트의 index, y축은 내림차순으로 정렬된 거리로 그래프를 그린다. 4. 그래프에서 꺾이는 지점. 즉, e..

AI/Clustering 2019.08.26

군집분석이란? (What is clustering algorithm?)

지난 포스팅에서 군집(clustering)과 분류(classification)의 간단한 정의와 차이점을 알아보았다. >> 군집과 분류의 차이 바로가기 이번에는 군집분석(clustering)에 대해 좀 더 깊게 알아보겠다. 1. 군집분석이란? 군집분석이란? 개체를 분류하기 위한 명확한 분류기준이 존재하기 않거나 기준이 밝혀지지 않은 상태에서 주어진 데이터들의 특성을 고려해 같은 그룹(클러스터)를 정의하고, 다른 클러스터의 개체보다 서로 더 유사한 개체가 되도록 그룹화하여 그룹의 대표성을 찾아내는 방법이다. 여기서 cluster란? cluster란? 비슷한 특성을 가진 데이터들의 집합이다. 2. 군집분석의 원리 군집분석의 원리는 크게 두 가지가 있다. ① 군집 내 응집도 최대화 ② 군집 내 분리도 최대화 ①..

AI/Clustering 2019.08.18

군집과 분류의 차이 (difference of clustering and classification)

1. 군집(clustering) 군집분석은 unsupervised learning(비지도 학습) 방법으로 군집의 수, 속성 즉 label이 사전에 알려져 있지 않을 때 사용하는 분석방법이다. clustering 이란? 데이터 간의 유사도를 정의하고 그 유사도에 가까운 것부터 순서대로 합쳐가는 방법이다. clustering 알고리즘의 예시로는 k-means 알고리즘, h-cluster 알고리즘 등이 있다. 군집분석은 사전에 label에 대한 정보를 모르기 때문에 각 개체가 어떤 군집에 들어갈까 예측하기보다는 이렇게 나누어질 수 있구나! 정도의 지식을 발견하는 것에 적합하다. 예를들어, 과일과 채소로 이루어진 다음과 같은 데이터가 있다고 가정해보자. 이것을 비슷한 모양끼리 군집화 하면 다음과 같다. 또는 과..

AI/Clustering 2019.08.17
반응형