Functions Functions in MLmetrics Package User defined functions for gini and ks Examples Plotting library(tidyverse) library(ggthemes) Functions in MLmetrics Package #### ROC-AUC #### ROCAUC
Introduction MM 알고리즘을 왜 사용하는가? Majorization과 Minorization Majorization Minorization Majorization-Minimization Descent Property Example Least Square without Matrix Inversion Median Regression Reference 이 글은 고려대학교 통계학과 신승준 교수님의 2018년 1학기 통계 계산 방법론(대학원) 강의를 바탕으로 작성되었습니다. Introduction MM 알고리즘은 Majorization-Minimization, Minorization-Maximization의 약자이다. MM 알고리즘은 high dimensional setting에 매우 적합하다. New..
Optimization with inequality constraints Primal problem Dual problem Support Vector Machine(SVM) Optimal Separating Hyperplane Maximal Margin Classifier - linearly separable case Soft Margin Classifier(linear SVM) - linearly nonseparable case R code Data setting Quadratic Programming for SVM Reference 이 글은 고려대학교 통계학과 신승준 교수님의 2018년 1학기 통계 계산 방법론(대학원) 강의를 바탕으로 작성되었습니다. 참고할 만한 링크들 고려대학교 강필성, 김성범 교..
목차 What is the OOB(Out of Bag) observations? OOB(Out of Bag)는 Bagging(Bootstrap Aggregation)에서 등장하는 용어이다. 배깅에서 핵심은 bootstrap 표본을 만들어 트리를 반복 적합하는 것이다. 각각의 배깅된 트리는 평균적으로 관측치들의 2/3를 사용한다. 배깅된 트리를 적합하는데 사용되지 않은 나머지 1/3의 관측치들을 OOB(Out of Bag) 관측치라고 한다. 이것은 bootstrap 표본을 만들 때 복원추출을 하기 때문에 나타나는 현상이다. 이러한 성질 때문에 배깅이나 랜덤포레스트에서는 OOB 관측치를 test set처럼 사용할 수 있다. Why OOB observations are around one-third of or..
kaggle 대회에서 요즘 가장 인기있는 알고리즘은 lightgbm인 것 같습니다. 학습속도도 빠르고(개인저인 경험에 의하면 xgboost 보다 빠릅니다) 성능도 좋기 때문이죠. kaggle 대회에서는 kernel을 사용하면 별도의 설치과정 없이 lightgbm 패키지를 이용할 수 있지만 다른 공모전이나 분석을 하려면 결국 로컬에 설치해야합니다. 기본 설치법은 lightgbm 깃허브를 참고하면 됩니다. https://github.com/Microsoft/LightGBM/tree/master/R-package microsoft/LightGBM A fast, distributed, high performance gradient boosting (GBDT, GBRT, GBM or MART) framework ..
아나콘다 설치 후 명령창에서 conda install -c r r-essentials R에서 library(devtools) install_github('IRkernel/IRkernel') IRkernel::installspec()
Chapter 5 3. k-fold 교차검증에 대해 살펴본다. (a) k-fold 교차검증을 어떻게 구현하는지 설명하여라. 1) 데이터를 랜덤하게 크기가 거의 같은 k개은 그룹(fold)로 나눈다. 2) 첫 번째 fold는 test set으로 취급하고 적합은 나머지 k-1개 fold에 대해 수행한다. 3) 첫 번째 MSE 추정치를 계산한다. 4) 이것을 k개의 집단에 대해 반복한다. 모두 k번의 계산이 이루어지는 것이다. 5) k개의 MSE 의 평균을 k-fold CV 추정치로 사용한다. (b) 아래 두 기법에 대한 k-fold 교차검증의 장점과 단점은 무엇인가? i. validation set 기법 장점: validation set 기법보다 test MSE 추정치의 variablility가 훨씬 작다...
이 글은 Introduction to Statistical Learning with R (ISLR)의 내용을 바탕으로 작성되었습니다. 저자들은 웹사이트를 통해 pdf 파일과 예제데이터, 예제코드를 제공하고 있습니다. http://www-bcf.usc.edu/~gareth/ISL/ Resampling은 ISLR 5장의 내용입니다. 5장에서는 4가지 resampling 기법을 설명하고 있습니다. 1. Validation Set Approach 2. Leave One Out Cross-Validation 3. k-fold Cross-Validation 4. Bootstrap 1. Validation Set Approach Validation Set Approach는 데이터를 train과 test로 분할하는 가..
이 글은 Introduction to Statistical Learning with R (ISLR)의 내용을 바탕으로 작성되었습니다. 저자들은 웹사이트를 통해 pdf 파일과 예제데이터, 예제코드를 제공하고 있습니다. http://www-bcf.usc.edu/~gareth/ISL/ Linear Model Selection and Regularization (1)에서는 크기가 다른 모델들 중에서 가장 좋은 모델을 고르기 위해 test MSE를 간접적으로 추정하는 방법들에 대해 알아봤습니다. 이번에는 Validation Set 기법과 k-fold Cross-Validation 기법을 이용해서 직접적으로 test MSE를 계산하는 방법에 대해 알아보겠습니다. 먼저 Validation Set 기법을 사용하기 위해..