EDA ExploratoryDataAnalysisExploratoryDataAnalysisExploratory Data Analysis란?
- 탐색적 데이터 분석
- 벨연구소의 수학자 '존튜키' 가 개발한 데이터 분석 과정에 대한 개념으로, 데이터를 분석하고
결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 '탐색과 이해'를 기본으로 가져야 한다는 것을 의미
실무에 있어 새로운 프로젝트에 들어갈 때 가장 중요하게 생각하는 것이 '왜?
그래야 기획단계부터 사로 이해가 잘 되고, 피드백을 하며 소통하여 결과의 질을 높게 향상시킬 수 있다.
처음 로우데이터
어떤 결과를 만들어낼지 'feature
출력해보며 인사이트를 얻어내는 것. 이것이 EDA라고 생각한다.
개인적으로 데이터 분석은 액션이 가장 중요하다고 생각한다.
값을 출력하기 전 어떤 결과값을 낼 지 '가설'을 갖고 기본적인 표나 그래프를 그려보며 '사전 검증'을 하는 과정
EDA를 잘하기 위한 필요한 기술은?
1. raw data의 description, dictionary를 통해 데이터의 각 column, row의 의미를 이해하는 기술
2. 결측치 처리 및 데이터 필터링 기술
- 반드시 데이터에 결측치가 없는지 확인하고, 있다면 제거를 해주어야 한다,
데이터에 결측치
3. 누구나 이해하기 쉬운 시각화를 하는 기술
- 사실 이 부분도 정말 중요하다고 생각한다.
내가 열심히 결과치를 뽑았는데 C-level 들이 봤을 때 무슨 그래프인지 결과치가 어떻게 나왔는지 보기 어렵다면 아무런 의미가 없어지는 것과 다름이 없다.
그렇기에 디자인적 요소 보다는 색을 예를 들어 두가지 색만 정의하여 상승 값, 혹은 하락 값에 표시해 눈에 잘 들어오도록 하는 것이 훨씬 보기 좋다는 뜻이다.
결과 적으론 [데이터를 잘 읽고, 잘 듣는
즉, 데이터를 접하였을 때 인지적 편향을 내려놓고, 새로운 시선, 있는 그대로를 이해할 수 있는 능력이 정말 중요하고 필요하다.
모두 파이팅
'Data Analysis' 카테고리의 다른 글
정규화 |
2025.05.14 |
---|---|
이상치 |
2025.05.14 |
결측치 |
2025.05.12 |
Hypothesis Test란? |
2023.08.23 |
데이터 분석가의 역할 |
2023.08.11 |