차원축소의 목적과 방법
·
Data Scientist
Feature Selection 피쳐 간 연관성을 알고 있을 때 Filter method: Feature 간 관련성을 측정하는 방법 Wrapper method: Feature Subset의 유용성을 측정하는 방법 Embedded method: Feature Subset의 유용성을 측정하지만, 내장 metric을 사용하는 방법 Feature Extraction 피쳐 간 연관성을 모를때 차원축소 방법은 선택 추출이 있음 선택은 피처를 고르는 것 특성이 많으면 오래 걸리고 쓰는 자원 만큼 성능이 나지 않기 때문에 삭제 대표적으로 selectpercentile anova를 기반으로 텐서 데이터에서 전체 특성 중에 원하는 범위까지 골라라 하면 필요한 특성이 골라지고 나머지는 다 버려진다. selectfrommod..
Tree Based Model이란?
·
Data Scientist
결정트리 스무고개? Yes or No / Question의 대답으로 target data 분할하는 algoritm 비용함수를 최소로 하는 특성에서 스무고개 하듯 분기함 ⇒ If ~ Then ~ Else ~ 선형회귀와 다르게 가정에서 자유로워 데이터 간의 관계를 잘 찾아냄 비선형/비단조 데이터의 패턴을 잘 학습해냄 비용함수 회귀 - squared_error 분류 - 불순도 불순도 여러 가지의 클래스가 섞여 있는 정도 한 노드의 모든 샘플이 같은 클래스에 속해있을 때 값이 0 범주들이 섞여 있을 수록 불순도가 올라감 특성 중요도 가장 영향력 있는 특성을 특성 중요도에서 확인 (회귀계수X) 비교적 먼저, 자주 분기에 사용되었는지에 따라 특성 중요도를 계산 장점 시각화 가능 전처리 과정이 많이 필요하지 않다 단..
Boosting이란?
·
Data Scientist
Bagging VS Boosting 앙상블 학습은 여러 기본 모델을 학습하고 모델들의 예측을 합하여 최종 예측을 내는 방식 단일 모델 사용 기법의 과적합, 과소적합 문제를 해결하여 더 나은 일반화 성능을 내기 위해 많이 사용 기본 컨셉 성능이 뛰어나 강력한 단일 모델을 구축하기 위해 노력하는 대신 약한 모델들을 학습하고 지혜롭게 조합하는 것 대표적인 앙상블 기법은 Bagging & boosting Bagging 좁은 의미 = 복원추출 → weak learner 학습 → weak learner들의 예측값을 합치는 과정 넓은 의미 = 기본 모델(weak learner)들을 병렬로 학습하고 평등하게 예측값을 합치는 과정 기본 모델(weak learner)들이 학습 시 상호 영향을 주고받지 않고, 독립적, 벙렬..