[Pandas] clip() - 이상값 방어의 핵심

728x90

데이터를 전처리를 하다 보면 종종 이런 일이 생긴다:

이런 이상값을 제거하거나, 상하한을 지정해서 데이터를 안전하게 자르는 작업이 필요하다.

이럴 때 Pandas의 clip() 은 최소값보다 작은 값은 최솟값으로, 최대값보다 큰 값은 최대값으로 잘라주는 함수다.

import pandas as pd

df = pd.DataFrame({
    'score': [95, 105, 85, 70, 30],
    'age': [25, 180, 38, 200, -5]
})

Series.clip(lower=None, upper=None)
DataFrame.clip(lower=None, upper=None)

df['score_clipped'] = df['score'].clip(upper=100)

df['age_clean'] = df['age'].clip(lower=0, upper=120)

df.clip(lower=0, upper=100)

df_clipped = df.clip(lower={'score': 60, 'age': 0}, upper={'score': 100, 'age': 120})

clip()은 Pandas에서 이상값을 자동으로 잘라주는 가장 빠른 도구다.

특히 점수, 나이, 가격 등 상하한이 명확한 데이터를 다를 때 필수적으로 사용되며,

조건 기반 삭제 없이도 데이터를 안전하게 정제할 수 있는 실무 필수 함수다.

728x90

[Numpy] ndarray 구조 - 배열의 모양, 차원 ,타입 (0)	2025.05.02
[Numpy] percentile() - 백분위수 구하기 (0)	2025.05.02
[Pandas] where() - 조건을 만족하는 값은 살리고, 아니면 치환 (0)	2025.04.29
[Pandas] applymap() - DataFrame 전체 셀에 함수를 적용 (0)	2025.04.29
[Pandas] map() (조건 라벨링, 값 변환, 딕셔너리 매핑까지 Series 변환의 핵심) (0)	2025.04.24

티스토리툴바