반응형

분류 3

Decision Tree란? :: ID3 알고리즘, 엔트로피란?

의사결정나무란? Decision Tree란? 의사결정 규칙을 나무구조로 나타내에 전체 데이터를 소집단으로 분류하거나 예측하는 분석기법 전체 데이터에서 마치 스무고개하듯이 질문하며 분류해나간다. 그 모양이 마치 나무와 같아서 의사결정 나무라 부른다. 예) 나무에서 분할되는 부분을 노드(node) 라 하고, 가장 처음 노드를 root node, 가장 마지막 노드들을 terminal node라 한다. 그렇다면, 위의 예시에서 모양 or 색 중에서 무엇을 먼저, 어떤 기준으로 나눠야 할까? 그 답은 불순도가 낮아지는 방향으로 나눠야 하며, 그 방법으로 ID3, CART, C4.5 등 여러 알고리즘이 있다. 본 포스팅에서는 ID3에 대해 알아보고자 한다. ID3 알고리즘에 대해 알아보기에 앞서, 불순도란 무엇이며..

분류 모델 성능 평가 지표 - Confusion Matrix란? :: 정확도(Accuracy), 정밀도(Precision), 재현도(Recall), F1 Score

분류 모델 성능 평가 지표 Linear 모델에 대해서는 R-Square, MSE 등 으로 모델의 성능을 평가한다.그렇다면 분류 모델에 대해서는 모델의 성능을 어떻게 평가할 수 있을까? 여러가지 방법이 있지만, 대표적으로 사용하는 정확도(Accuracy), 정밀도(Precision), 재현도(Recall), F1 Score 에 대해 알아보고자 한다. 1. Confusion Matrix (오차행렬) 위 네가지 지표를 설명하기 전에 Confusion Matrix를 먼저 설명하고자 한다. Confusion Matrix란? Training 을 통한 Prediction 성능을 측정하기 위해 예측 value와 실제 value를 비교하기 위한 표 여기서 ACTUAL VALUES는 실제값, PREDICTIVE VALUE..

AI/기초통계 2020.04.07 (14)

군집과 분류의 차이 (difference of clustering and classification)

1. 군집(clustering) 군집분석은 unsupervised learning(비지도 학습) 방법으로 군집의 수, 속성 즉 label이 사전에 알려져 있지 않을 때 사용하는 분석방법이다. clustering 이란? 데이터 간의 유사도를 정의하고 그 유사도에 가까운 것부터 순서대로 합쳐가는 방법이다. clustering 알고리즘의 예시로는 k-means 알고리즘, h-cluster 알고리즘 등이 있다. 군집분석은 사전에 label에 대한 정보를 모르기 때문에 각 개체가 어떤 군집에 들어갈까 예측하기보다는 이렇게 나누어질 수 있구나! 정도의 지식을 발견하는 것에 적합하다. 예를들어, 과일과 채소로 이루어진 다음과 같은 데이터가 있다고 가정해보자. 이것을 비슷한 모양끼리 군집화 하면 다음과 같다. 또는 과..

AI/Clustering 2019.08.17
반응형