EDA의 개념과 데이터 분석

2023. 4. 30. 15:20·Data Analysis
목차
  1. EDA ExploratoryDataAnalysisExploratoryDataAnalysisExploratory Data Analysis란?
728x90

EDA ExploratoryDataAnalysisExploratoryDataAnalysisExploratory Data Analysis란?

 - 탐색적 데이터 분석

 - 벨연구소의 수학자 '존튜키' 가 개발한 데이터 분석 과정에 대한 개념으로, 데이터를 분석하고

결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 '탐색과 이해'를 기본으로 가져야 한다는 것을 의미

 

실무에 있어 새로운 프로젝트에 들어갈 때 가장 중요하게 생각하는 것이 '왜? Why?Why?' 라고 생각한다.

그래야 기획단계부터 사로 이해가 잘 되고, 피드백을 하며 소통하여 결과의 질을 높게 향상시킬 수 있다.

 

처음 로우데이터Row−DataRow−Data를 접할 때부터 이 데이터를 잘 이해하고 파악한 다음,

어떤 결과를 만들어낼지 'featurecolcol'로 필터해보고, 다른 feature로 해본 후 데이터를 여러 측면으로 쪼개고,

출력해보며 인사이트를 얻어내는 것. 이것이 EDA라고 생각한다.

 

개인적으로 데이터 분석은 액션이 가장 중요하다고 생각한다.

값을 출력하기 전 어떤 결과값을 낼 지 '가설'을 갖고 기본적인 표나 그래프를 그려보며 '사전 검증'을 하는 과정

 

EDA를 잘하기 위한 필요한 기술은?

1. raw data의 description, dictionary를 통해 데이터의 각 column, row의 의미를 이해하는 기술

 

2. 결측치 처리 및 데이터 필터링 기술

 - 반드시 데이터에 결측치가 없는지 확인하고, 있다면 제거를 해주어야 한다,

데이터에 결측치NaN,N/ANaN,N/A가 있거나, 수치형이 아닌 범주형/비수치형으로 들어가 있는 경우 그래프를 열심히 그려봤자 원하는 결과치를 얻을 수 없기 때문이다.

 

3. 누구나 이해하기 쉬운 시각화를 하는 기술

 - 사실 이 부분도 정말 중요하다고 생각한다.

내가 열심히 결과치를 뽑았는데 C-level 들이 봤을 때 무슨 그래프인지 결과치가 어떻게 나왔는지 보기 어렵다면 아무런 의미가 없어지는 것과 다름이 없다.

그렇기에 디자인적 요소 보다는 색을 예를 들어 두가지 색만 정의하여 상승 값, 혹은 하락 값에 표시해 눈에 잘 들어오도록 하는 것이 훨씬 보기 좋다는 뜻이다.

 

결과 적으론 [데이터를 잘 읽고, 잘 듣는이해하는이해하는이해하는 능력] 이 중요하다.

즉, 데이터를 접하였을 때 인지적 편향을 내려놓고, 새로운 시선, 있는 그대로를 이해할 수 있는 능력이 정말 중요하고 필요하다.

 

모두 파이팅

728x90
반응형

'Data Analysis' 카테고리의 다른 글

정규화NormalizationNormalization vs 표준화StandardizationStandardization  00 2025.05.14
이상치OutliersOutliers 탐지와 처리 방법  00 2025.05.14
결측치MissingValuesMissingValues 처리  00 2025.05.12
Hypothesis Test란?  00 2023.08.23
데이터 분석가의 역할 DataAnalystDataAnalyst  00 2023.08.11
  1. EDA ExploratoryDataAnalysisExploratoryDataAnalysisExploratory Data Analysis란?
'Data Analysis' 카테고리의 다른 글
  • 이상치OutliersOutliers 탐지와 처리 방법
  • 결측치MissingValuesMissingValues 처리
  • Hypothesis Test란?
  • 데이터 분석가의 역할 DataAnalystDataAnalyst
Balang
Balang
음악 전공생의 개발일지
  • Balang
    Balang
    Balang
  • 전체
    오늘
    어제
  • 반응형
    • All Post 147147
      • python 4545
        • selenium 44
        • algorithm 99
        • Django 66
        • Pandas | Numpy 2222
      • SQL 99
      • Data Engineer 2929
      • Data Scientist 33
      • Data Analysis 99
      • Computer Science 3535
      • Why? 1515
      • 마음가짐 22
  • 인기 글

  • 최근 댓글

  • 최근 글

  • 250x250
  • hELLO· Designed By정상우.v4.10.3
Balang
EDA의 개념과 데이터 분석
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.