데이터 웨어하우스DataWarehouseDataWarehouse와 데이터 레이크DataLakeDataLake의 차이점

2023. 9. 15. 15:52·Data Engineer
728x90

데이터 웨어하우스와 데이터 레이크는 데이터 관리와 분석을 위한 두 가지 다른 데이터 아키텍처입니다.

 

데이터 웨어하우스DataWarehouseDataWarehouse

데이터 웨어하우스는 구조화된 데이터를 중심으로 구축됩니다.

데이터는 미리 정의된 테이블과 스키마에 따라 저장되며, 스타 스키마 또는 눈 결정 스키마와 같은 전통적인 데이터 베이스 스키마를 따릅니다.

또한 데이터 웨어하우스는 데이터 품질을 중요시하며, 데이터 품질 문제를 최소화하기 위해 데이터 정제 및 통합 작업을 수행합니다.

주로 BI(Business Intelligence) 및 의사 결정 지원을 위해 사용됩니다.

데이터는 사전 정의된 질문에 대한 답을 제공하기 위해 구조화되어 있습니다.

 

데이터 웨어하우스는 쿼리 성능을 최적화하기 위해 인덱싱 및 집계 작업을 수행합니다.

이로써 대용량 데이터 BigDataBigData에 대한 빠른 응답이 가능합니다.

 

데이터 레이크DataLakeDataLake

데이터 레이크는 구조화되지 않음 rawraw 데이터, 반정형 데이터, 구조화된 데이터를 모두 저장할 수 있는 저장소입니다.

데이터는 기존의 스키마에 구애받지 않고 저장됩니다.

원시 데이터를 보관하므로 데이터 품질 검증이나 정제를 최소화합니다.

데이터는 나중에 필요한 경우에 가공 및 정제됩니다.

 

다양한 목적으로 사용할 수 있으며, BI, 분석, 머신 러닝 및 대용량 데이터 저장 용도 등 다양한 데이터 작업을 지원합니다.

데이터 레이크는 기본적으로 대용량 데이터 저장을 위해 설계되었으며, 스키마 변환 없이 데이터를 저장하므로 초기적재는 빠릅니다.

그러나 쿼리 성능을 향상하기 위해 추가 가공 작업이 필요할 수 있습니다.

 

초기 구축 비용은 상대적으로 낮으며, 스키마를 정의하지 않고 데이터를 저장하므로 비용이 발생하지 않을 수 있습니다.

그러나 데이터 처리 및 가공 작업에 따라 비용이 상승할 수 있습니다.

 

요약하면, 데이터 웨어하우스는 구조화된 데이터와 BI에 중점을 두고 있으며, 데이터 레이크는 다양한 형식의 데이터를 저장하고 분석 및 머신 러닝을 지원하는 더 유연한 데이터 저장소 입니다.

 

선택은 조직의 묙표와 요구 사항에 따라 다를 수 있습니다.

감사합니다.

 

정리

  데이터웨어하우스 데이터 레이크
데이터 구조 구조화된 데이터를 중심으로 구축

스타 스키마 또는 눈 결정 스키마와 같은 전통적인 데이터베이스 스키마를 따름
구조화되지 않은rawraw 데이터, 반정형 데이터, 구조화된 데이터를 모두 저장

데이터는 기존의 스키마에 구애받지 않고 저장
데이터 품질 데이터 품질을 중요, 데이터 정제 및 통합 작업을 수행 원시 데이터를 보관하므로 데이터 품질 검증이나 정제를 최소화
용도 비즈니스 인텔리전스BusinessIntelligence,BIBusinessIntelligence,BI 및 의사 결정 지원을 위해 사용 비즈니스 인텔리전스, 고급 분석, 머신 러닝 및 대용량 데이터 저장 용도 등 다양한 데이터 작업을 지원
성능 쿼리 성능을 최적화하기 위해 인덱싱 및 집계 작업을 수행 스키마 변환 없이 데이터를 저장하므로 초기 적재는 빠름, 쿼리 성능을 향상하기 위해 추가 가공 작업이 필요
비용 구축 및 유지보수에 대한 초기 비용이 높을 수 있으며, 변경 사항을 적용하는 데 비용이 발생할 수 있음 초기 구축 비용은 상대적으로 낮으며, 스키마를 정의하지 않고 데이터를 저장하므로 비용이 발생하지 않을 수 있음

 

감사합니다.

728x90
반응형

'Data Engineer' 카테고리의 다른 글

Flask란? Flask설치방법Flask설치방법  00 2023.09.21
Kubernetes란?  00 2023.09.16
정형 데이터 vs 반정형 데이터 vs 비정형 데이터  00 2023.09.15
Apache Spark란?  00 2023.09.08
카프카KafkaKafka란?  00 2023.09.07
'Data Engineer' 카테고리의 다른 글
  • Flask란? Flask설치방법Flask설치방법
  • Kubernetes란?
  • 정형 데이터 vs 반정형 데이터 vs 비정형 데이터
  • Apache Spark란?
Balang
Balang
음악 전공생의 개발일지
  • Balang
    Balang
    Balang
  • 전체
    오늘
    어제
  • 반응형
    • All Post 146146
      • python 4545
        • selenium 44
        • algorithm 99
        • Django 66
        • Pandas | Numpy 2222
      • SQL 99
      • Data Engineer 2929
      • Data Scientist 33
      • Data Analysis 99
      • Computer Science 3535
      • Why? 1515
      • 마음가짐 11
  • 인기 글

  • 최근 댓글

  • 최근 글

  • 250x250
  • hELLO· Designed By정상우.v4.10.3
Balang
데이터 웨어하우스DataWarehouseDataWarehouse와 데이터 레이크DataLakeDataLake의 차이점
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.