데이터 웨어하우스와 데이터 레이크는 데이터 관리와 분석을 위한 두 가지 다른 데이터 아키텍처입니다.
데이터 웨어하우스(Data Warehouse)
데이터 웨어하우스는 구조화된 데이터를 중심으로 구축됩니다.
데이터는 미리 정의된 테이블과 스키마에 따라 저장되며, 스타 스키마 또는 눈 결정 스키마와 같은 전통적인 데이터 베이스 스키마를 따릅니다.
또한 데이터 웨어하우스는 데이터 품질을 중요시하며, 데이터 품질 문제를 최소화하기 위해 데이터 정제 및 통합 작업을 수행합니다.
주로 BI(Business Intelligence) 및 의사 결정 지원을 위해 사용됩니다.
데이터는 사전 정의된 질문에 대한 답을 제공하기 위해 구조화되어 있습니다.
데이터 웨어하우스는 쿼리 성능을 최적화하기 위해 인덱싱 및 집계 작업을 수행합니다.
이로써 대용량 데이터 (Big Data)에 대한 빠른 응답이 가능합니다.
데이터 레이크(Data Lake)
데이터 레이크는 구조화되지 않음 (raw) 데이터, 반정형 데이터, 구조화된 데이터를 모두 저장할 수 있는 저장소입니다.
데이터는 기존의 스키마에 구애받지 않고 저장됩니다.
원시 데이터를 보관하므로 데이터 품질 검증이나 정제를 최소화합니다.
데이터는 나중에 필요한 경우에 가공 및 정제됩니다.
다양한 목적으로 사용할 수 있으며, BI, 분석, 머신 러닝 및 대용량 데이터 저장 용도 등 다양한 데이터 작업을 지원합니다.
데이터 레이크는 기본적으로 대용량 데이터 저장을 위해 설계되었으며, 스키마 변환 없이 데이터를 저장하므로 초기적재는 빠릅니다.
그러나 쿼리 성능을 향상하기 위해 추가 가공 작업이 필요할 수 있습니다.
초기 구축 비용은 상대적으로 낮으며, 스키마를 정의하지 않고 데이터를 저장하므로 비용이 발생하지 않을 수 있습니다.
그러나 데이터 처리 및 가공 작업에 따라 비용이 상승할 수 있습니다.
요약하면, 데이터 웨어하우스는 구조화된 데이터와 BI에 중점을 두고 있으며, 데이터 레이크는 다양한 형식의 데이터를 저장하고 분석 및 머신 러닝을 지원하는 더 유연한 데이터 저장소 입니다.
선택은 조직의 묙표와 요구 사항에 따라 다를 수 있습니다.
감사합니다.
정리
데이터웨어하우스 | 데이터 레이크 | |
데이터 구조 | 구조화된 데이터를 중심으로 구축 스타 스키마 또는 눈 결정 스키마와 같은 전통적인 데이터베이스 스키마를 따름 |
구조화되지 않은(raw) 데이터, 반정형 데이터, 구조화된 데이터를 모두 저장 데이터는 기존의 스키마에 구애받지 않고 저장 |
데이터 품질 | 데이터 품질을 중요, 데이터 정제 및 통합 작업을 수행 | 원시 데이터를 보관하므로 데이터 품질 검증이나 정제를 최소화 |
용도 | 비즈니스 인텔리전스(Business Intelligence, BI) 및 의사 결정 지원을 위해 사용 | 비즈니스 인텔리전스, 고급 분석, 머신 러닝 및 대용량 데이터 저장 용도 등 다양한 데이터 작업을 지원 |
성능 | 쿼리 성능을 최적화하기 위해 인덱싱 및 집계 작업을 수행 | 스키마 변환 없이 데이터를 저장하므로 초기 적재는 빠름, 쿼리 성능을 향상하기 위해 추가 가공 작업이 필요 |
비용 | 구축 및 유지보수에 대한 초기 비용이 높을 수 있으며, 변경 사항을 적용하는 데 비용이 발생할 수 있음 | 초기 구축 비용은 상대적으로 낮으며, 스키마를 정의하지 않고 데이터를 저장하므로 비용이 발생하지 않을 수 있음 |
감사합니다.
'Data Engineer' 카테고리의 다른 글
Flask란? (Flask 설치방법) (0) | 2023.09.21 |
---|---|
Kubernetes란? (0) | 2023.09.16 |
정형 데이터 vs 반정형 데이터 vs 비정형 데이터 (0) | 2023.09.15 |
Apache Spark란? (0) | 2023.09.08 |
카프카(Kafka)란? (0) | 2023.09.07 |