Data Analysis

EDA의 개념과 데이터 분석

Balang 2023. 4. 30. 15:20

EDA (Exploratory Data Analysis)란?

 - 탐색적 데이터 분석

 - 벨연구소의 수학자 '존튜키' 가 개발한 데이터 분석 과정에 대한 개념으로, 데이터를 분석하고

결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 '탐색과 이해'를 기본으로 가져야 한다는 것을 의미

 

실무에 있어 새로운 프로젝트에 들어갈 때 가장 중요하게 생각하는 것이 '왜? (Why?)' 라고 생각한다.

그래야 기획단계부터 사로 이해가 잘 되고, 피드백을 하며 소통하여 결과의 질을 높게 향상시킬 수 있다.

 

처음 로우데이터(Row-Data)를 접할 때부터 이 데이터를 잘 이해하고 파악한 다음,

어떤 결과를 만들어낼지 'feature(col)'로 필터해보고, 다른 feature로 해본 후 데이터를 여러 측면으로 쪼개고,

출력해보며 인사이트를 얻어내는 것. 이것이 EDA라고 생각한다.

 

개인적으로 데이터 분석은 액션이 가장 중요하다고 생각한다.

값을 출력하기 전 어떤 결과값을 낼 지 '가설'을 갖고 기본적인 표나 그래프를 그려보며 '사전 검증'을 하는 과정

 

EDA를 잘하기 위한 필요한 기술은?

1. raw data의 description, dictionary를 통해 데이터의 각 column, row의 의미를 이해하는 기술

 

2. 결측치 처리 및 데이터 필터링 기술

 - 반드시 데이터에 결측치가 없는지 확인하고, 있다면 제거를 해주어야 한다,

데이터에 결측치(NaN, N/A)가 있거나, 수치형이 아닌 범주형/비수치형으로 들어가 있는 경우 그래프를 열심히 그려봤자 원하는 결과치를 얻을 수 없기 때문이다.

 

3. 누구나 이해하기 쉬운 시각화를 하는 기술

 - 사실 이 부분도 정말 중요하다고 생각한다.

내가 열심히 결과치를 뽑았는데 C-level 들이 봤을 때 무슨 그래프인지 결과치가 어떻게 나왔는지 보기 어렵다면 아무런 의미가 없어지는 것과 다름이 없다.

그렇기에 디자인적 요소 보다는 색을 예를 들어 두가지 색만 정의하여 상승 값, 혹은 하락 값에 표시해 눈에 잘 들어오도록 하는 것이 훨씬 보기 좋다는 뜻이다.

 

결과 적으론 [데이터를 잘 읽고, 잘 듣는(이해하는) 능력] 이 중요하다.

즉, 데이터를 접하였을 때 인지적 편향을 내려놓고, 새로운 시선, 있는 그대로를 이해할 수 있는 능력이 정말 중요하고 필요하다.

 

모두 파이팅