[Pandas] explode() (리스트가 들어있는 셀 행마다 분해)

728x90

데이터를 다루다 보면 한 셀에 리스트나 튜플 형태로 여러 값이 들어 있는 경우가 많다.

예를 들어:

이런 경우, 분석을 하려면 반드시 각 항목을 행 단위로 분해해야 한다.
explode()는 바로 이런 상황을 위해 탄생한 함수다.

import pandas as pd

df = pd.DataFrame({
    'user_id': [101, 102, 103],
    'tags': [['A', 'B'], ['C'], []]
})

df.explode(column, ignore_index=False)

df.explode('tags')

df.explode('tags', ignore_index=True)

→ 결과 인덱스를 새로 부여하고 싶을 때 사용

df = pd.DataFrame({
    'user_id': [201, 202],
    'tags': [['A', 'B'], ['C']],
    'scores': [[100, 90], [85]]
})
df.explode(['tags', 'scores'])

→ 각 리스트 길이가 같아야 정상 작동! 다르면 ValueError 발생

df = pd.DataFrame({
    'user_id': [301, 302],
    'likes': [['python', 'pandas'], ['numpy']]
})
df.explode('likes')

→ 크롤링/로그/REST API 결과 등 리스트 형태 데이터 정제에 매우 유용

exploded_df = df.explode('tags').dropna(subset=['tags']).reset_index(drop=True)

→ 리스트 분해 후 빈 값 제거 + 인덱스 초기화까지 한 번에

explode()는 셀 내부의 리스트를 개별 행으로 변환해주는 강력한 도구다.
태그 분석, 다중 선택 옵션 분석, API JSON 데이터 정리 등 현업에서 매우 자주 등장하는 형태를 깔끔하게 펼쳐주는 핵심 함수다.

728x90

[Pandas] applymap() - DataFrame 전체 셀에 함수를 적용 (0)	2025.04.29
[Pandas] map() (조건 라벨링, 값 변환, 딕셔너리 매핑까지 Series 변환의 핵심) (0)	2025.04.24
[Pandas] eval() (열 간 수식을 짧고 빠르게 처리) (0)	2025.04.24
[Pandas] query() (loc보다 더 깔끔하게 조건 필터링) (0)	2025.04.24
[Pandas] filter() (0)	2025.04.24

티스토리툴바