반응형

AI/잡지식 5

[R] XIA(eXplainable AI) 패키지 중 DALEX로 변수 중요도 뽑기(classification)

지난 포스팅에서 XAI와 DALEX 패키지에 대해 간단히 소개하고, Regression 문제에서 DALEX 패키지로 변수 중요도 뽑는 방법과 그 원리를 알아보았다. 2021.11.15 - [AI/잡지식] - [R] XIA(eXplainable AI) 패키지 중 DALEX로 변수 중요도 뽑기 [R] XIA(eXplainable AI) 패키지 중 DALEX로 변수 중요도 뽑기 DALEX :: Variable Importance Measures in R Deep Learning 모델을 Black Box 라 부르곤 한다. 설명이 가능한 Linear Regression과 같은 모델과 달리 layer가 많고 weight가 많아 모델에 대한 설명이 어렵기 때문.. leedakyeong.tistory.com 이번에는 ..

AI/잡지식 2021.11.15

[R] XIA(eXplainable AI) 패키지 중 DALEX로 변수 중요도 뽑기

DALEX :: Variable Importance Measures in R Deep Learning 모델을 Black Box 라 부르곤 한다. 설명이 가능한 Linear Regression과 같은 모델과 달리 layer가 많고 weight가 많아 모델에 대한 설명이 어렵기 때문이다. 이런 Black Box 모델들을 설명하고자 하는 needs가 꾸준히 있어왔고, 이를 XAI 혹은 eXplainable AI라 부른다. R과 Python에서 이런 XAI가 가능한 패키지들을 몇가지 제공하고 있는데, 다음과 같다. 이 중 R에서 DALEX 패키지를 활용해서 Regression 문제와 Classification 문제를 나누어 변수 중요도 뽑는 방법을 소개하고자 한다. Regression과 Classificatio..

AI/잡지식 2021.11.15

넬슨 법칙이란? What is the Nelson Rules?

넬슨법칙이란? Nelson Rules 는 공정에서 발생할 수 있는 불량(측정 변수가 제어 범위를 벗어났는지 or non-random)의 조건을 파악하기 위한 방법이다. 일반적으로 좋은 공정이란 측정된 값이 일정 범위 이내에 있으며, random 한 형태로 존재하는 것이다. Nelson Rule에서는 그렇지 못한 경우를 불량이라 정의하고, 그러한 패턴을 찾기 위해 만들어졌다. 불량을 판단하는 기준에는 총 8가지 Rule이 있으며, 각각에 대한 설명은 다음과 같다.* 단, UCL/LCL의 default값은 측정 값들의 평균 +-3 시그마이며, 이는 parameter로 조정될 수 있다. 1. Rule 1 : 측정된 값이 평균 + 3 시그마를 벗어난 경우. 2. Rule 2 : 연속적으로 관측된 9개 이상의 점..

AI/잡지식 2020.02.04

KL divergence(Kullback–Leibler)

Kullback–Leibler divergence - 두 확률분포의 차이를 계산하는 데에 사용하는 함수- 두 확률변수에 대한 확률분포 {\displaystyle P,Q}가 있을 때, 두 분포의 KL divergence는 다음과 같이 정의 - KL divergence는 어떠한 확률분포 {\displaystyle P}가 있을 때, 그 분포를 근사적으로 표현하는 확률분포 {\displaystyle Q}를 {\displaystyle P} 대신 사용할 경우 엔트로피 변화를 의미즉, 의 분포를 사용하고 싶은데 모를 때, 분포로 추정하기 위해 사용 결국, ( 대신 를 사용할 때의 cross entropy)와 (원래의 분포가 가지는 entropy)의 차이는 다음과 같으며, 이는 과 동일{\displaystyle D_{..

AI/잡지식 2018.09.21

curse of dimensionality - 차원의 저주

차원의 저주 - 차원이 늘어남에 따라 필요한 데이터 양이 급격하게 증가즉, 같은 공간의 비율을 설명하기 위해 필요한 데이터 양이 급격히 증가 - 1차원에서 20%의 공간을 채우기 위해서는 변수 1개당 20%의 데이터만 있으면 된다. - 하지만, 2차원에서 20%의 공간을 채우기 위해서는 변수 1개당 약 45%의 데이터가 필요하다.∵ 0.45*0.45 ≒ 0.2 - 마찬가지로, 3차원 공간에서 20%의 공간을 채우기 위해서는 변수 1개당 약 58%의 데이터가 필요하다.∵ 0.58*0.58*0.58 ≒ 0.2 문제점 - 차원이 늘어나면 해당 공간을 설명하기에 데이터가 부족하므로 overfitting문제가 발생따라서 모델의 성능이 떨어진다.

AI/잡지식 2018.09.20
반응형