그래프 : X 축은 년도, Y축은 해당 년도의 램 1MB 당 가격($기준)
설명
- 선형 회귀 모델은 훈련 데이터와 테스트 데이터를 바탕으로 선을 그려 테스트 데이터(2000년 이후)를 꽤 정확히 예측
- 트리 모델은 훈련 데이터가 위치한 영역을 분할하여 예측하는 것이기 때문에 범위 밖에 위치한 데이터에 대해서는 영역 분할이 되어있지 않으므로, 모델이 예측할 수가 없다
- 트리 모델은 훈련 데이터를 완벽하게 예측하기 때문에 트리의 복잡도에 제한을 두지 않아서 전체 데이터셋을 모두 기억해서 모델이 가진 데이터 범위 밖으로 나가면(테스트 데이터) 단순히 마지막 포인트를 이용해 예측하는 게 전부
'Why?' 카테고리의 다른 글
ICE Plot과 PDP Plot의 특징에 대해 논의하고 언제 어떤 방법을 쓸 수 있을지 구체적인 예시 (0) | 2023.05.15 |
---|---|
Tree based model에서 특성의 scaling이나 normalization이 필요하지 않은 이유는 무엇일까요? (0) | 2023.05.15 |
Ridge 회귀를 통해 정규화 과정을 수행하는 목적과 방법 (0) | 2023.05.15 |
Bias과 Variance은 Trade Off 관계, 일반화 성능을 얻기 위해서 다음 중 어떤 방식을 선택하시겠습니까? (0) | 2023.05.15 |
Test set을 분리했는데도 Validation set을 분리하는 이유는? (0) | 2023.05.15 |