데이터 웨어하우스(Data Warehouse)와 데이터 레이크(Data Lake)의 차이점

2023. 9. 15. 15:52·Data Engineer
728x90

데이터 웨어하우스와 데이터 레이크는 데이터 관리와 분석을 위한 두 가지 다른 데이터 아키텍처입니다.

 

데이터 웨어하우스(Data Warehouse)

데이터 웨어하우스는 구조화된 데이터를 중심으로 구축됩니다.

데이터는 미리 정의된 테이블과 스키마에 따라 저장되며, 스타 스키마 또는 눈 결정 스키마와 같은 전통적인 데이터 베이스 스키마를 따릅니다.

또한 데이터 웨어하우스는 데이터 품질을 중요시하며, 데이터 품질 문제를 최소화하기 위해 데이터 정제 및 통합 작업을 수행합니다.

주로 BI(Business Intelligence) 및 의사 결정 지원을 위해 사용됩니다.

데이터는 사전 정의된 질문에 대한 답을 제공하기 위해 구조화되어 있습니다.

 

데이터 웨어하우스는 쿼리 성능을 최적화하기 위해 인덱싱 및 집계 작업을 수행합니다.

이로써 대용량 데이터 (Big Data)에 대한 빠른 응답이 가능합니다.

 

데이터 레이크(Data Lake)

데이터 레이크는 구조화되지 않음 (raw) 데이터, 반정형 데이터, 구조화된 데이터를 모두 저장할 수 있는 저장소입니다.

데이터는 기존의 스키마에 구애받지 않고 저장됩니다.

원시 데이터를 보관하므로 데이터 품질 검증이나 정제를 최소화합니다.

데이터는 나중에 필요한 경우에 가공 및 정제됩니다.

 

다양한 목적으로 사용할 수 있으며, BI, 분석, 머신 러닝 및 대용량 데이터 저장 용도 등 다양한 데이터 작업을 지원합니다.

데이터 레이크는 기본적으로 대용량 데이터 저장을 위해 설계되었으며, 스키마 변환 없이 데이터를 저장하므로 초기적재는 빠릅니다.

그러나 쿼리 성능을 향상하기 위해 추가 가공 작업이 필요할 수 있습니다.

 

초기 구축 비용은 상대적으로 낮으며, 스키마를 정의하지 않고 데이터를 저장하므로 비용이 발생하지 않을 수 있습니다.

그러나 데이터 처리 및 가공 작업에 따라 비용이 상승할 수 있습니다.

 

요약하면, 데이터 웨어하우스는 구조화된 데이터와 BI에 중점을 두고 있으며, 데이터 레이크는 다양한 형식의 데이터를 저장하고 분석 및 머신 러닝을 지원하는 더 유연한 데이터 저장소 입니다.

 

선택은 조직의 묙표와 요구 사항에 따라 다를 수 있습니다.

감사합니다.

 

정리

  데이터웨어하우스 데이터 레이크
데이터 구조 구조화된 데이터를 중심으로 구축

스타 스키마 또는 눈 결정 스키마와 같은 전통적인 데이터베이스 스키마를 따름
구조화되지 않은(raw) 데이터, 반정형 데이터, 구조화된 데이터를 모두 저장

데이터는 기존의 스키마에 구애받지 않고 저장
데이터 품질 데이터 품질을 중요, 데이터 정제 및 통합 작업을 수행 원시 데이터를 보관하므로 데이터 품질 검증이나 정제를 최소화
용도 비즈니스 인텔리전스(Business Intelligence, BI) 및 의사 결정 지원을 위해 사용 비즈니스 인텔리전스, 고급 분석, 머신 러닝 및 대용량 데이터 저장 용도 등 다양한 데이터 작업을 지원
성능 쿼리 성능을 최적화하기 위해 인덱싱 및 집계 작업을 수행 스키마 변환 없이 데이터를 저장하므로 초기 적재는 빠름, 쿼리 성능을 향상하기 위해 추가 가공 작업이 필요
비용 구축 및 유지보수에 대한 초기 비용이 높을 수 있으며, 변경 사항을 적용하는 데 비용이 발생할 수 있음 초기 구축 비용은 상대적으로 낮으며, 스키마를 정의하지 않고 데이터를 저장하므로 비용이 발생하지 않을 수 있음

 

감사합니다.

728x90
반응형

'Data Engineer' 카테고리의 다른 글

Flask란? (Flask 설치방법)  (0) 2023.09.21
Kubernetes란?  (0) 2023.09.16
정형 데이터 vs 반정형 데이터 vs 비정형 데이터  (0) 2023.09.15
Apache Spark란?  (0) 2023.09.08
카프카(Kafka)란?  (0) 2023.09.07
'Data Engineer' 카테고리의 다른 글
  • Flask란? (Flask 설치방법)
  • Kubernetes란?
  • 정형 데이터 vs 반정형 데이터 vs 비정형 데이터
  • Apache Spark란?
Balang
Balang
음악 전공생의 개발일지
  • Balang
    Balang
    Balang
  • 전체
    오늘
    어제
  • 반응형
    • All Post (140) N
      • python (40) N
        • selenium (4)
        • algorithm (5) N
        • Django (6)
        • Pandas | Numpy (21) N
      • SQL (9)
      • Data Engineer (29)
      • Data Scientist (3)
      • Data Analysis (8) N
      • Computer Science (35)
      • Why? (15)
      • 마음가짐 (1)
  • 인기 글

  • 최근 댓글

  • 최근 글

  • 250x250
  • hELLO· Designed By정상우.v4.10.3
Balang
데이터 웨어하우스(Data Warehouse)와 데이터 레이크(Data Lake)의 차이점
상단으로

티스토리툴바