XGBoost와 LightGBM 하이퍼파라미터 튜닝 가이드
목차 1. 왜 이 글을 쓰게 되었는가? xgboost와 lightgbm은 tabula데이터를 다루는 경진대회에서 가장 많이 쓰이는 모델이다. 몇번의 경진대회 경험에 의하면 text classification의 경우에도 딥러닝 모형에 비해 학습시간은 적게 소요되면서 더 나은 성능을 내는 경우가 많았다. 회사에서는 주로 클래스 불균형이 있는 이진분류 문제를 다루는데, 이 경우에도 기본적인 딥러닝 모형들(DNN, RNN, CNN)에 비해 학습속도와 성능 모두 xgboost나 lightgbm이 월등히 나은 모습을 보인다. 경험적으로 보면 하이퍼파라미터 튜닝보다는 파생변수 생성에 집중하는 것이 성능을 높이는데 더 효과적인 방법이다. 하지만, 기본적인 하이퍼파라미터들이 어떤 의미인지 정확히 알고 사용할 수 있어야 ..