정형 데이터, 반정형 데이터 및 비정형 데이터는 데이터의 구조와 특성에 따라 구분되는 세 가지 주요 유형의 데이터입니다.
먼저 정형 데이터(Structured Data)란?
정형 데이터의 가장 큰 특징은 구조화라는 점 입니다.
표 형식 또는 테이블 형식으로 표현 됩니다.
데이터 베이스나 엑셀 시트 같은 표 형태의 데이터 베이스에서 일반적으로 사용됩니다.
정해진 스키마에 따라 데이터가 저장 되며, 각 열은 고정된 데이터 유형을 가지며, 레코드는 특정 키를 기반으로 정렬 됩니다.예를 들어, 고객 정보, 고객 주문 데이터, 학생 성적표 등이 있습니다.
그 다음은 반정형 데이터(Semi-Structured Data)입니다.
반정형 데이터는 일부 구조화된 요소를 가지고 있지만, 전체적으로는 구조가 정해져 있지 않습니다.주로 텍스트 데이터나 마크업 언로 표현됩니다.
데이터의 일부 요소는 정해진 스키마에 따라 저장되지만, 다른 요소는 자유롭게 확장 될 수 있습니다.XML, JSON 등의 형식이 반정형 데이터의 예시입니다.
마지막으로 비정형 데이터(Unstructured Data)입니다.
비정형 데이터는 구조가 없으며, 텍스트, 이미지, 오디오, 비디오 등의 형식으로 주로 존재합니다.대부분의 자연어 텍스트가 비정형 데이터의 한 예입니다.
데이터의 유형이나 스키마가 정해져 있지 않으며, 데이터 추출 및 해석이 어렵습니다.예를 들어 웹 페이지의 텍스트 콘텐츠, 음성녹음, 사진 및 비디오 파일이 있습니다.
이러한 데이터의 유형의 구분은 데이터 처리, 저장 및 분석 방법을 결정하는 데 중요합니다.정형 데이터는 SQL 데이터베이스와 같은 관계형 데이터 베이스에서 사용되며, 반정형 데이터는 NoSQL 데이터 베이스 또는 XML 및 JSON 데이터 형식에서 처리 됩니다.
반면에 비정형 데이터는 텍스트 마이닝, 이미지 분석 및 음성 처리와 같은 고급 기술을 사용하여 다루어집니다.
감사합니다.
'Data Engineer' 카테고리의 다른 글
Kubernetes란? (0) | 2023.09.16 |
---|---|
데이터 웨어하우스(Data Warehouse)와 데이터 레이크(Data Lake)의 차이점 (0) | 2023.09.15 |
Apache Spark란? (0) | 2023.09.08 |
카프카(Kafka)란? (0) | 2023.09.07 |
NoSQL이란? (0) | 2023.09.06 |