p-value를 고객에게 뭐라고 설명하는게 이해하기 편할까?

우선 기초통계학 책에 나온 정의를 살펴보자.

 

1. p-value란 영가설이 참일 때, 주어진 관찰값 혹은 그 값보다 더 희귀한 값이 관찰 될 확률[각주:1]

 

2. 유의확률은 검정통계량이 실제 관측된 값보다 대립가설을 지지하는 방향으로 더욱 치우칠 확률로서 귀무가설하에서 계산된 값이며, 유의확률이 작을수록 귀무가설에 대한 반증이 강한 것을 뜻한다.[각주:2]

 

영가설(귀무가설), 검정통계량 같이 통계학을 공부하지 않은 사람들에게 생소한 표현들이 등장한다.


가설검정의 논리도 처음 접한 사람이 이해하기에 쉽지 않게 되어 있다.


영가설이 참임을 가정한 상태에서 이와 모순되는 증거를 찾아 영가설을 기각하는 논리인데,


이 논리 구조에서는 영가설의 기각여부만을 결정할 수 있다.


영가설이 기각되면 대립가설을 채택하여 집단 간 평균에 차이가 있다든지, 집단 간 분산에 차이가 있다든지 하는 서술을 할 수 있다.


그러나, 영가설이 기각되지 않았다고 해서 영가설을 채택한다는 표현을 사용할 수는 없다.


애초에 영가설이 참이라는 가정을 한 상태에서 논리를 전개하기 때문이다.


영가설이 기각되지 않았다는 것은 단지 영가설을 기각할 만한 충분한 증거를 찾지 못했음을 의미한다.


통계에 대한 배경지식이 있는 고객이 아니라면 분석과정에서 p-value가 어떤 목적으로 사용되는지 설명하는 것이 좋다고 생각한다.


두 집단의 평균 차이를 검정하는 분석을 한다면, p-value를 '두 집단이 차이가 있는지 확인할 때 사용하는 지표' 정도로 고객에게 설명하는 것이 무난할 것이라고 본다.




  1. 김권현, 「기초통계학의 숨은 원리 이해하기」,경문사,2013.09.26 p.163~166 [본문으로]
  2. 김우철 등 공저, 「일반통계학」, 영지문화사,2013.02.01 ,p.211 [본문으로]