결정 트리 기반 모델은 매개변수를 기반으로 결정이 내려짐
따라서 X라는 변수가 있는 경우 이 변수는 여러 값을 가질 수 있는데 이제 결정 트리 모델에서 트리는, 트리를 형성하기 위해 알고리즘이 내리는 미세 결정을 기반으로 형성 이 알고리즘은 다른 학습 트리 분기를 형성하고 그렇지 않으면 트리의 다른 분기를 형성 한다.
예를 들어 0에서 100으로 이동하는 기능의 경우 X = 50에서 컷이 성능을 향상시킬 수 있다 이 숫자를 0에서 1로 축소하여도 X = 0.5도 같은 줄어들어 아무것도 변하지 않는다 (X 값도 동일한 요소로 축소되었음을 기억)
따라서 Randomforest XGboost 같은 의사 결정 트리 모델은 최소값으로 수렴하기 위해 값을 조정할 필요가 없음
또한 정규화의 경우 데이터를 확장하는 프로세스는 특정 기능이 다른 기능보다 우선되지 않을 때 사용하는데 정규화는 K-means 와 같은 거리기반 알고리즘에서 사용
그러나 randomforest, XGboost 기반의 의사결정 트리 알고리즘은 각 노드의 기능 값을 비교하지 않고 분기에 절대값이 필요한 정렬된 목록을 단순히 분할 하는 알고리즘 그렇기에 예측을 위해 데이터를 분할 하는 것을 기반으로 하므로 정규화가 필요하지 않다.
결론 정규화는 데이터가 확장되는 것으로 구성되어 있고 선택한 기계 학습 알고리즘에 데이터 분포를 가정할 수 없는 경우에 사용하는 좋은 기술임 트리 기반 모델은 피처가 서로 영향을 미치는 거리를 기반으로 하지 않음 지니와 엔트로피는 모두 정보 이득을 계산하는데 사용되므로 정규화가 필요하지 않다.
지니 = 의사결정 트리, randomforest or other tree model 얼마나 잘 분할 되었는지 결정
- 무작위로 선택 했을 때 특정 기능이 잘못 분류될 확률을 계산, gini 분순물의 범위는 0~0.5 여기서 최소값은 0은 최상의 값(classification is pure) 은 0.5이고 최악의 값(high level of impurity)이다
엔트로피 = 데이터 포인트의 불순도 또는 무작위성의 척도
- 기계학습 알고리즘으로 작업할 때 주요 목표는 불확실성과 무작위성을 줄이는 것
- 엔트포리는 0과 1사이에서 조정되며, 여기서 최소값 0은 최상의 값(pure)이고 1은 최악의 값(high level of impurity)이다
'Why?' 카테고리의 다른 글
PDP의 해석 시 유의할 점 (0) | 2023.05.15 |
---|---|
ICE Plot과 PDP Plot의 특징에 대해 논의하고 언제 어떤 방법을 쓸 수 있을지 구체적인 예시 (0) | 2023.05.15 |
결정트리는 왜 외삽이 어려울까? (0) | 2023.05.15 |
Ridge 회귀를 통해 정규화 과정을 수행하는 목적과 방법 (0) | 2023.05.15 |
Bias과 Variance은 Trade Off 관계, 일반화 성능을 얻기 위해서 다음 중 어떤 방식을 선택하시겠습니까? (0) | 2023.05.15 |