가설검정

 통계학을 공부하면서 가장 햇갈리는 부분이 많았던 개념이 바로 가설검정이다.


 일단, 가설검정의 논리를 이해하는 것도 어려웠고,

(최근에 가설검정의 논리를 잘 설명해놓은 글을 발견했다. http://www.dongascience.com/news/view/14553)


 영가설을 기각하지 못했을 때 영가설을 accept 한다고 말할 수 있는지는 항상 나를 괴롭혀왔던 문제였다.


 어떤 교수님은 영가설을 기각하지 못했을 때 영가설을 accept 한다는 것은 정확하지 않은 표현이고 영가설을 sustain한다고 하는 것이 올바른 표현이라고 하셨다. ...(1)


 하지만 또 다른 교수님은 영가설을 기각하지 못했을 때 영가설을 accept한다고 해도 관계없다고 말씀하셨다. ...(2)


 도대체 뭐가 맞는 것일까 궁금했었는데 수리통계학 수업시간에 가설검정 파트를 배우면서 그 궁금증이 해결되었다.


 수리통계학 교수님의 말씀에 따르면 우리가 지금 배우고 있는 대부분의 교과서에서는 피셔의 가설검정 개념과 네이만의 가설검정 개념이 혼재되어 있다고 한다.


 하지만 두 개념에는 차이가 있다. 피셔는 가설을 accept한다는 것은 있을 수 없다고 주장했다. 예를 들면, 내가 옆에 있는 사람을 때렸는데 옆에 있는 사람이 나를 고소했다. 그런데 내가 옆에 있는 사람을 때렸다는 증거가 없다. 그렇다고 내가 무죄라는 것은 아니다. 무죄라는 충분한 증거가 없다고 해서 내가 과연 innocent하다고 할 수 있는가? 그렇지 않다고 보는 것이 피셔의 주장이다.


 네이만은 수학적으로 reject와 accept를 나누었다고 한다. 네이만은 영가설과 대립가설이 symmetric하다고 보았고, 두 가설을 바꾸어도 된다고 주장했다.


 이 설명에 따르면 (1)은 피셔의 주장이고, (2)는 네이만의 주장이라고 볼 수 있을 것 같다.


 가설검정 문제는 앞에서 예를 들었던 것처럼 형사재판(criminal trial)으로 예시를 많이 든다.



가설검정을 배심원이 피고가 유죄인지 무죄인지 판단하는 과정이라고 생각해 볼 수 있다. 배심원은 변호사와 검사가 제시하는 증거를 바탕으로 결정을 하게 되는데 여기서 증거는 통계학에서 데이터에 해당된다. 피고인이 정말 유죄인지 무죄인지는 피고와 원고만이 알고 있고, 배심원들은 모르고 있는 상태에서 결정을 내려야 한다.