Why?

PDP의 해석 시 유의할 점

Balang 2023. 5. 15. 16:53
728x90
  1. 몇몇 PDP는 특성 분포를 나타내지 않음
    • 분포를 생략하는 것은 데이터가 거의 없는 부분을 과대해석할 수 있다.
    • x축의 데이터 포인터나 히스토그램을 보여주면 이 문제가 해결 할 수 있다.
  2. 이질적 효과(Heterogeneous effect)가 드러나지 않음
    • 이질적 효과?
      • 겉보기에는 비슷하지만 사실상 다른 영향을 끼치는 서로 이질적인 요소를 가리킨다.
      • 예를 들어, 하나의 특성이 커지면 커질수록 예측치가 커지고, 동시에 작으면 작을수록 예측치가 커진다고 합시다. 이 경우 PDP는 수평선으로 그려져 특성의 영향도는 없는 것으로 보여질 것이다.
      • => 개별 조건부 기대치(Individual Conditional Expectation)를 그려 이종효과를 찾아낼 수 있다.
  3. 현실적으로 변수가 두 개를 초과할 경우 그래프로 표현하기 어려움
  4. PDP는 데이터의 분포를 표현하지 않음
  5. 두 변수 간 상관이 있는 경우 큰 문제가 발생
    1. ⇒ 한 변수의 값을 고정시키고 나머지 변수의 값들에 대해 평균을 구하는 식으로 이루어짐
  6. 주 변화가 모든 data에 대해서 이루어지기 때문에 발생

한 특성에 대해 값을 계속 변화 시켜 가며 타겟 값이 어떻게 변화하는지 확인하기 때문에 변수간 상관성이 너무 높은 경우 비현실적인 데이터가 발생 할 수 있습니다.

 

ex) 지난주 동안 계속 사용했던 H1N1백신접종 예측 데이터의 경우 거주 구성원수가 총1명인데 집에 어른 인원 수가 2명이고 어린이 인원 수가 2명인 데이터, 또는 나이가 6개월에서 9살 사이인 의료계 종사자 데이터 같은 비현실적인 경우가 생길 수 있습니다.

 

PDP는 실제 해당 특성값을 갖는 데이터가 존재하든 존재하지 않든 특성값을 넣어서 모델의 예측값을 확인합니다.

 

데이터 분포에서 특정 값 지점(또는 구간)을 갖는 데이터가 많이 없을 경우, 해당 구간에 대해 학습이 덜 되었기 때문에 PDP의 해석은 조심스럽게 접근해야 합니다.

 

ex) 코비브라이언트 슛 성공 예측 모델중 action type 특성

728x90
반응형