Chapter 5 3. k-fold 교차검증에 대해 살펴본다. (a) k-fold 교차검증을 어떻게 구현하는지 설명하여라. 1) 데이터를 랜덤하게 크기가 거의 같은 k개은 그룹(fold)로 나눈다. 2) 첫 번째 fold는 test set으로 취급하고 적합은 나머지 k-1개 fold에 대해 수행한다. 3) 첫 번째 MSE 추정치를 계산한다. 4) 이것을 k개의 집단에 대해 반복한다. 모두 k번의 계산이 이루어지는 것이다. 5) k개의 MSE 의 평균을 k-fold CV 추정치로 사용한다. (b) 아래 두 기법에 대한 k-fold 교차검증의 장점과 단점은 무엇인가? i. validation set 기법 장점: validation set 기법보다 test MSE 추정치의 variablility가 훨씬 작다...
이 글은 Introduction to Statistical Learning with R (ISLR)의 내용을 바탕으로 작성되었습니다. 저자들은 웹사이트를 통해 pdf 파일과 예제데이터, 예제코드를 제공하고 있습니다. http://www-bcf.usc.edu/~gareth/ISL/ Resampling은 ISLR 5장의 내용입니다. 5장에서는 4가지 resampling 기법을 설명하고 있습니다. 1. Validation Set Approach 2. Leave One Out Cross-Validation 3. k-fold Cross-Validation 4. Bootstrap 1. Validation Set Approach Validation Set Approach는 데이터를 train과 test로 분할하는 가..
이 글은 Introduction to Statistical Learning with R (ISLR)의 내용을 바탕으로 작성되었습니다. 저자들은 웹사이트를 통해 pdf 파일과 예제데이터, 예제코드를 제공하고 있습니다. http://www-bcf.usc.edu/~gareth/ISL/ Linear Model Selection and Regularization (1)에서는 크기가 다른 모델들 중에서 가장 좋은 모델을 고르기 위해 test MSE를 간접적으로 추정하는 방법들에 대해 알아봤습니다. 이번에는 Validation Set 기법과 k-fold Cross-Validation 기법을 이용해서 직접적으로 test MSE를 계산하는 방법에 대해 알아보겠습니다. 먼저 Validation Set 기법을 사용하기 위해..
통계학을 공부하면서 가장 햇갈리는 부분이 많았던 개념이 바로 가설검정이다. 일단, 가설검정의 논리를 이해하는 것도 어려웠고,(최근에 가설검정의 논리를 잘 설명해놓은 글을 발견했다. http://www.dongascience.com/news/view/14553) 영가설을 기각하지 못했을 때 영가설을 accept 한다고 말할 수 있는지는 항상 나를 괴롭혀왔던 문제였다. 어떤 교수님은 영가설을 기각하지 못했을 때 영가설을 accept 한다는 것은 정확하지 않은 표현이고 영가설을 sustain한다고 하는 것이 올바른 표현이라고 하셨다. ...(1) 하지만 또 다른 교수님은 영가설을 기각하지 못했을 때 영가설을 accept한다고 해도 관계없다고 말씀하셨다. ...(2) 도대체 뭐가 맞는 것일까 궁금했었는데 수리통..
객관식 - ERD 분석 문제 => 두 개 정도 나왔던 걸로 기억- 트랜잭션의 4가지 속성(고립성이 격리성으로 지속성이 영속성으로 출제)- 설계속성, 파생속성 등 속성의 유형에 대한 설명- 슈퍼/서브타입- 다음 중 관계에 대한 설명으로 옳지 않은 것은?- 객체무결성, 도메인무결성, 참조무결성, 정규화 중 SQL에서 제공하는 제약조건이 아닌 것은?- 테이블 분할을 하는 반정규화를 해야 하는 상황이 아닌 거은?- PRIMARY KEY가 설정되어 있는 칼럼에 중복된 결과 값이 있을 수 있다는 선택지 찾는 게 있었음- INNER JOIN, LEFT OUTER JOIN, RIGHT OUTER JOIN, FULL OUTER JOIN, CROSS JOIN 으로 생기는 결과행 수 모두 더하는 문제- NULL이 포함된 테..
install.packages('installr') library(installr) updateR() 여기까지 하고 나면 기존에 R을 설치할 때 나왔던 설치파일 화면이 나옵니다. 원하는 옵션을 선택해서 설치하고 나면 이전 버전의 패키지들은 카피할 것인지 물어보는 단계가 진행됩니다. 이전에 설치된 R버전은 직접 제거해 줘야 합니다.
다음 중 Hash Join의 특징을 가장 적절하게 표현한 것을 2개 고르시오. ① Driving Table의 검색범위가 성능에 가장 큰 영향을 주는 조인 방식이다. ② 내부적으로 Function을 사용한다. ③ 조인 조건의 인덱스 유무에 영향을 받지 않지만 Sort가 필요하다. ④ 크기 차이가 나는 두 집합의 조인 시에 유리하며, Sort가 일어나지 않는다. [출처] http://www.dbguide.net/da.db?cmd=snb9_4_view&boardUid=168442&boardConfigUid=81 정답 : ②, ④ ① Driving Table의 데이터 양이 가장 큰 영향을 주는 조인 방식이다.(NLJ) NLJ는 조인 테이블의 순서에 따라 일의 양이 변하므로 가장 드라이빙 테이블의 영향을 많이 받..
다음 SQL 문장 중 COLUMN1의 값이 널(NULL)이 아닌 경우를 찾아내는 문장으로 가장 적절한 것은? (ANSI 표준 기준) ① SELECT * FROM MYTABLE WHERE COLUMN1 IS NOT NULL ② SELECT * FROM MYTABLE WHERE COLUMN1 NULL ③ SELECT * FROM MYTABLE WHERE COLUMN1 != NULL ④ SELECT * FROM MYTABLE WHERE COLUMN1 NOT NULL [출처] http://www.dbguide.net/da.db?cmd=snb9_4_view&boardUid=168331&boardConfigUid=81 * 정답 및 해설 * 정답 : ① NULL 값을 조건절에서 사용하는 경우 IS NULL, IS N..
다음 중 실행계획에 대한 설명으로 가장 부적절한 것은? ① 실행계획은 SQL 처리를 위한 실행 절차와 방법을 표현한 것이다. ② 실행계획은 조인 방법, 조인 순서, 액세스 기법 등이 표현된다. ③ 동일 SQL문에 대해 실행계획이 다르면 실행 결과도 달라질 수 있다. ④ CBO(Cost Based Optimizer)의 실행계획에는 단계별 예상 비용 및 건수 등이 표시된다. [출처] http://www.dbguide.net/da.db?cmd=snb13_view&boardGroupUid=6&boardConfigUid=81&boardUid=168101 * 정답 및 해설 * 정답 : ③ 실행계획 즉, 실행방법이 달라진다고 해서 결과가 달라지지는 않는다.