Data Scientist

차원축소의 목적과 방법

Balang 2023. 8. 11. 13:57
728x90

Feature Selection

  • 피쳐 간 연관성을 알고 있을 때
  • Filter method: Feature 간 관련성을 측정하는 방법
  • Wrapper method: Feature Subset의 유용성을 측정하는 방법
  • Embedded method: Feature Subset의 유용성을 측정하지만, 내장 metric을 사용하는 방법

Feature Extraction

  • 피쳐 간 연관성을 모를때

차원축소 방법은 선택 추출이 있음 선택은 피처를 고르는 것 특성이 많으면 오래 걸리고 쓰는 자원 만큼 성능이 나지 않기 때문에 삭제 대표적으로 selectpercentile anova를 기반으로 텐서 데이터에서 전체 특성 중에 원하는 범위까지 골라라 하면 필요한 특성이 골라지고 나머지는 다 버려진다.

 

selectfrommodel은 피처마다 모델이 결과를 내는데 가중치를 계산됨 정해진 임계치 보다 높은건 다 버리게 된다.

 

RFE는 모든 피처를 학습시키고 가장 관계가 없는 피처부터 점점 빼면서 특성의 개수가 정한 개수가 될 때까지 반복 피처간의 상호 관계를 고려한다.

 

 

차원 축소를 하는 이유는 설명력 높은 모델을 생성하기 위함이고, Feature가 많다고 해서 모든 Feature를 사용하여 모델을 만드는 것은 좋은 방법이 아니라 설명력이 높은 Feature만 사용해야 한다는 것입니다.

 

즉, 설명력이 높은 Feature만 사용하여 모델을 생성한다는 것은 모든 차원을 사용하지 않고 차원은 축소해 설명력이 높은 모델을 생성한다는 의미 이기도 합니다.

 

차원 축소 방법 통계, 기계 학습 및 정보 이론에서 차원 축소 또는 차원 축소는 주요 변수 세트를 가져 와서 고려중인 임의의 변수 수를 줄이는 프로세스입니다.

 

결론적으로 가지고 있는 데이터에서 사용할 Feature들만 남긴다는 의미도 됩니다. 차원 축소에는 두가지 방법이 있습니다.

  • 피처 추출 (Feature Extration) : 높은 차원의 raw Feature들을 더 필요한 요소로 추출하는 기법
  • 피처 선택 (Feature Selection) : 모든 Feature들 중 필요한 것들만 선택하는 기법

 

피처 추출은 다시 말해서 기존의 Feature 들로 새로운 Feature를 생성하며 Feature를 줄이는 방식이고 피처 선택은 간단하거나 무시할 수 있는 Feature를 사용하지 않는 방식을 말합니다.

 

피처 추출에는 PCA(Principal component analysis), LDA(Linear discriminant analysis), NMF(Non-negativ matrix facotrization) 등이 있고 피처 선택에는 Filtering, Wrapper, Embedded 방식이 있습니다.

 

차원 축소를 하여 변수간의 상관 관계를 제거하고, 적절한 정보를 유지하면서 중복되거나 불필요한 변수를 제거할 수 있습니다.

728x90
반응형