Chapter 5
3. k-fold 교차검증에 대해 살펴본다.
(a) k-fold 교차검증을 어떻게 구현하는지 설명하여라.
1) 데이터를 랜덤하게 크기가 거의 같은 k개은 그룹(fold)로 나눈다.
2) 첫 번째 fold는 test set으로 취급하고 적합은 나머지 k-1개 fold에 대해 수행한다.
3) 첫 번째 MSE 추정치를 계산한다.
4) 이것을 k개의 집단에 대해 반복한다. 모두 k번의 계산이 이루어지는 것이다.
5) k개의 MSE 의 평균을 k-fold CV 추정치로 사용한다.
(b) 아래 두 기법에 대한 k-fold 교차검증의 장점과 단점은 무엇인가?
i. validation set 기법
장점: validation set 기법보다 test MSE 추정치의 variablility가 훨씬 작다.
단점: validation set 기법 test MSE 추정치의 bias가 크다.
ii. LOOCV
장점
1) LOOCV보다 계산하는데 필요한 시간이 짧다.(계산량이 적다.)
2) k<n인 경우 LOOCV보다 분산이 더 작다.
- LOOCV는 n개의 적합된 모델의 결과를 평균내는데, 적합된 모델 각각은 거의 동일한 관측치들로 구성된 training set을 사용하여 구해진다. 그러므로 적합된 모델의 결과들은 서로 높은 positive correlation을 가지고 있다. 반대로 k<n인 k-fold CV를 수행할 때는 k개의 적합된 모델의 결과를 평균내는데, 각 모델의 training set 사이에 겹치는 부분이 적어 적합된 모델의 결과들은 서로 덜 correlate되어 있다. 상관성이 높은 값들의 평균은 상관성이 상대적으로 낮은 값들의 평균보다 분산이 크기 때문에 LOOCV의 test MSE 추정치는 k-fold CV의 추정치보다 분산이 더 큰 경향이 있다.
단점: LOOCV보다 test MSE 추정치의 bias가 크다.