Data Scaling in R 데이터 scale 이란 전처리 과정 중 하나로, 각 컬럼의 분포를 맞춰주기 위해 필요한 과정이다. scale 과정 없이 모델링을 한다고 했을 때 문제점은 예를 들어, X1의 범위는 0~1 이고, X2의 범위는 100000~10000000, Y값의 범위는 100000~10000000 이라하자. 사실 X1이 중요한 변수라 해도 그 값이 너무 작아 Y에 영향을 미치지 못한다고 판단할 수 있다. 외에도 계산 과정에서 수렴, 발산 등의 문제도 발생할 수 있다. scale 방법에 여러가지가 있는데, 가장 많이 사용하는 두 가지 방법을 소개하고자 한다. 1. 표준화(Standardization) 각 observation이 평균으로 부터 어느정도 떨어져 있는지 나타낼 때 사용된다. 값의..