
파생변수 생성 - Feature Engineering

·
Data Analysis
머신러닝 모델을 만들기 전, 단순히 주어진 데이터만 사용하는 것은 부족할 수 있습니다.예를 들어:생년월일 이 있다고 가정을 하면 그대로 사용이 가능할까?승선 인원 이 있는데, 이걸 혼자인지 여부, 가족 수 같은 의미 있는 값으로 바꾸면 더 좋지 않을까?이처럼 기존 변수로부터 새로운 의미 있는 변수를 만들어내는 작업이바로 파생변수 생성(Feature Engineering)입니다. 이 과정은 모델 성능을 극적으로 개선할 수 있으며, 데이터 분석의 핵심이라 해도 과언이 아닙니다. 파생변수 생성 패턴 1. 날짜/시간 파생변수예시: SibSp(형제자매 수), Parch(부모자녀 수) → 가족 수 변수 생성df['FamilySize'] = df['SibSp'] + df['Parch'] + 1 # 자기 자신 포함 ..