정형 데이터 vs 반정형 데이터 vs 비정형 데이터

2023. 9. 15. 12:50·Data Engineer
728x90

정형 데이터, 반정형 데이터 및 비정형 데이터는 데이터의 구조와 특성에 따라 구분되는 세 가지 주요 유형의 데이터입니다.

 

먼저 정형 데이터(Structured Data)란?

정형 데이터의 가장 큰 특징은 구조화라는 점 입니다.

표 형식 또는 테이블 형식으로 표현 됩니다.

데이터 베이스나 엑셀 시트 같은 표 형태의 데이터 베이스에서 일반적으로 사용됩니다.

 

정해진 스키마에 따라 데이터가 저장 되며, 각 열은 고정된 데이터 유형을 가지며, 레코드는 특정 키를 기반으로 정렬 됩니다.예를 들어, 고객 정보, 고객 주문 데이터, 학생 성적표 등이 있습니다.

 

그 다음은 반정형 데이터(Semi-Structured Data)입니다.

반정형 데이터는 일부 구조화된 요소를 가지고 있지만, 전체적으로는 구조가 정해져 있지 않습니다.주로 텍스트 데이터나 마크업 언로 표현됩니다.

 

데이터의 일부 요소는 정해진 스키마에 따라 저장되지만, 다른 요소는 자유롭게 확장 될 수 있습니다.XML, JSON 등의 형식이 반정형 데이터의 예시입니다.

 

마지막으로 비정형 데이터(Unstructured Data)입니다.

비정형 데이터는 구조가 없으며, 텍스트, 이미지, 오디오, 비디오 등의 형식으로 주로 존재합니다.대부분의 자연어 텍스트가 비정형 데이터의 한 예입니다.

 

데이터의 유형이나 스키마가 정해져 있지 않으며, 데이터 추출 및 해석이 어렵습니다.예를 들어 웹 페이지의 텍스트 콘텐츠, 음성녹음, 사진 및 비디오 파일이 있습니다.

 

이러한 데이터의 유형의 구분은 데이터 처리, 저장 및 분석 방법을 결정하는 데 중요합니다.정형 데이터는 SQL 데이터베이스와 같은 관계형 데이터 베이스에서 사용되며, 반정형 데이터는 NoSQL 데이터 베이스 또는 XML 및 JSON 데이터 형식에서 처리 됩니다.

 

반면에 비정형 데이터는 텍스트 마이닝, 이미지 분석 및 음성 처리와 같은 고급 기술을 사용하여 다루어집니다.

 

감사합니다.

 

728x90
반응형

'Data Engineer' 카테고리의 다른 글

Kubernetes란?  (0) 2023.09.16
데이터 웨어하우스(Data Warehouse)와 데이터 레이크(Data Lake)의 차이점  (0) 2023.09.15
Apache Spark란?  (0) 2023.09.08
카프카(Kafka)란?  (0) 2023.09.07
NoSQL이란?  (0) 2023.09.06
'Data Engineer' 카테고리의 다른 글
  • Kubernetes란?
  • 데이터 웨어하우스(Data Warehouse)와 데이터 레이크(Data Lake)의 차이점
  • Apache Spark란?
  • 카프카(Kafka)란?
Balang
Balang
음악 전공생의 개발일지
  • Balang
    Balang
    Balang
  • 전체
    오늘
    어제
  • 반응형
    • All Post (146)
      • python (45)
        • selenium (4)
        • algorithm (9)
        • Django (6)
        • Pandas | Numpy (22)
      • SQL (9)
      • Data Engineer (29)
      • Data Scientist (3)
      • Data Analysis (9)
      • Computer Science (35)
      • Why? (15)
      • 마음가짐 (1)
  • 인기 글

  • 최근 댓글

  • 최근 글

  • 250x250
  • hELLO· Designed By정상우.v4.10.3
Balang
정형 데이터 vs 반정형 데이터 vs 비정형 데이터
상단으로

티스토리툴바