Boosting이란?
·
Data Scientist
Bagging VS Boosting 앙상블 학습은 여러 기본 모델을 학습하고 모델들의 예측을 합하여 최종 예측을 내는 방식 단일 모델 사용 기법의 과적합, 과소적합 문제를 해결하여 더 나은 일반화 성능을 내기 위해 많이 사용 기본 컨셉 성능이 뛰어나 강력한 단일 모델을 구축하기 위해 노력하는 대신 약한 모델들을 학습하고 지혜롭게 조합하는 것 대표적인 앙상블 기법은 Bagging & boosting Bagging 좁은 의미 = 복원추출 → weak learner 학습 → weak learner들의 예측값을 합치는 과정 넓은 의미 = 기본 모델(weak learner)들을 병렬로 학습하고 평등하게 예측값을 합치는 과정 기본 모델(weak learner)들이 학습 시 상호 영향을 주고받지 않고, 독립적, 벙렬..
Docker 란?
·
Data Engineer
Docker란 Go언어로 작성된 리눅스 컨테이너 기반으로하는 오픈소스 가상화 플랫폼이다. 현재 Docker 0.9버전 부터는 직접 개발한 libcontainer 컨테이너를 사용하고 있다. 간단하게 말하면 리눅스에서 돌아가는 프로그램을 PC에서 동작하게 할 수 있도록 제공하는 것 + 쉽고(Dockerfile) + 빠르게 (Container) 가상화를 사용하는 이유는? 이제는 향상된 컴퓨터의 성능을 더욱 효율적으로 사용하기 위해 가상화 기술이 많이 등장하였습니다. 서버 관리자 입장에서 CPU 사용률이 10%대 밖에 되지 않는 활용도가 낮은 서버들의 리소스 낭비일 수밖에 없습니다. 그렇다고 모든 서비스를 한 서버 안에 올린다면 안정성에 문제가 생길 수도 있습니다. 그래서 안정성을 높이며 리소스도 최대한 활용할..
EDA의 개념과 데이터 분석
·
Data Analysis
EDA (Exploratory Data Analysis)란? - 탐색적 데이터 분석 - 벨연구소의 수학자 '존튜키' 가 개발한 데이터 분석 과정에 대한 개념으로, 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 '탐색과 이해'를 기본으로 가져야 한다는 것을 의미 실무에 있어 새로운 프로젝트에 들어갈 때 가장 중요하게 생각하는 것이 '왜? (Why?)' 라고 생각한다. 그래야 기획단계부터 사로 이해가 잘 되고, 피드백을 하며 소통하여 결과의 질을 높게 향상시킬 수 있다. 처음 로우데이터(Row-Data)를 접할 때부터 이 데이터를 잘 이해하고 파악한 다음, 어떤 결과를 만들어낼지 'feature(col)'로 필터해보고, 다른 feature로 해본 후 데이터를 여러 측면으로 쪼개고..