30 2 2
View Articles
Name  
    (2006-10-17 11:26:10, Hit : 4546, Vote : 0)
Subject  
   유의확률 (p-value)
유의확률 (p-value) | 정책분석론 2006/09/18 18:45  


http://blog.naver.com/shix/20028514404


통계패키지로 데이타를 분석하다보면 항상 나오는게 p-value입니다.



많은 분들이 데이타 분석시 아래 정도만 알고계실겁니다.

p-value <= 0.05, 귀무가설 기각

p-value > 0.05, 귀무가설을 기각할수 없음.



매번 이렇게 결론을 내리다보면 찜찜하지요.



그럼 이 찜찜함을 해소해드리도록 노력해보겠습니다.



첫째, p-value는 확률입니다.  그러므로 (0, 1)의 값을 갖습니다.



둘째, p-value를 쉽게 설명하자면, 실험을 했건 설문조사를 했건 거기서 관찰된 데이타 또는 그것의 summary인 검정통계량(test statistic)이 귀무가설(H0)을 지지하는 정도입니다.   이 해석에 의하면 p-value가 작을수록 관찰된 데이타가 귀무가설을 지지하는 정도가 약해지므로 귀무가설을 기각하겠지요.



복잡한걸 싫어하시는 분은 여기까지만 아시면 되고요.   좀 더 알고 싶으신 분은 계속 읽어보세요.



셋째, p-value의 정확한 정의를 말로 써보면, 귀무가설이 맞다고 가정했을때 얻어진 검정통계량보다 더 극단적인 결과가 나올 확률입니다.  여기서 극단적이라함은 대립가설에 유리하게 나오는것을 의미합니다.  좀 어렵죠...  그래서 예를 들어보죠.



1970년대에 한국 성인 남자의 평균키가 170cm이었는데,

2000년에 키의 평균이 증가했을거라고 주장하고 표본을 뽑아서 측정했더니 175cm였습니다.



그러면 가설이 어떻게 될까요.

H0: mu=170 vs Ha: mu > 170

이겠지요.



여기서 2000년에 측정된 표본평균 175가 검정통계량입니다.



검정통계량이 크면 클수록 귀무가설에 불리하고 대립가설에 유리하겠지요.  

p-value가 검정톨계량이 관찰치보다 더 대립가설에 유리하게 나올 확률이라고했으니,



p-value= Pr(표본평균 > 175) 입니다.



그런데 이게 다가 아니죠.  귀무가설이 맞다는 가정했을때라는 단서가 있으니



p-value = Pr(표본평균 > 175 | mu=170) 입니다.



그런데 여기서 귀무가설이 맞다고 가정하고 구한 이유에 주목해야합니다.



표본평균의 표준오차를 1이라고 하면

위의 확률을 구할때 "Z=(표본평균 - mu)/1=(표본평균-mu)"로 표준화시키겠죠.



p-value = Pr{ (표본평균-mu)/1 > (175-170)/1 } = Pr(Z > 5) = 0

으로 p-value가 0입니다.



만약 관찰된 검정통계량이 175가 아니고, 귀무가설에 가까와서 170.5라고 하면

p-value = Pr( Z > 0.5) = 0.3085375 여서 꽤 큰 값이 나오지요.



짐작 되시겠지만

귀무가설이 맞다고 가정함으로써

귀무가설을 기준으로 삼고

관찰된 검정통계량이 거기서 얼마나 멀리 떨어져있나 보는것입니다.



멀리 떨어지면 p-value가 작아 대립가설을 지지하고,

가까우면 p-value가 커므로 귀무가설을 지지하겠지요.



참고) 양측검정의 경우 (Ha: mu is not 170)는 대립가설을 지지하는게 170양쪽으로 멀어지는거죠.  그래서 175보다 큰 경우와 그것의 정반대인 -175보다 작은 경우도 동시에 고려해야합니다.   p-value = Pr( 표본평균 > 175 or 표본평균 < -175 | mu=170) 입니다.



정규분포같이 대칭인 경우는 양측검정의 p-value는 단측검정의 p-value의 2배입니다.

(출처 : '유의확률 (p-value)' - 네이버 지식iN)


::: 유의수준 α란 귀무가설이 옳은데도 불구하고 이를 기각하는 확률의 크기를 말하며, 검정통계량을 구하는 것과는 무관하게 검정을 실시하는 사람의 판단에 따라 결정한다. 기각역이란 가설검정에서 유의수준 α가 정해졌을 때, 검정통계량의 분포에서 이 유의수준의 크기에 해당하는 영역을 말하는데, 검정통계량의 분포에서 이 영역의 위치는 대립가설의 형태에 따라 다르다. 기각역 C와 유의수준 α의 관계는 다음과 같이 표현할 수 있다. ~~~~ (한글SPSS12K로 쉽고 정확하게 의학,보건학 통계분석 p21) (2006/11/28 


 no 
 Category 
 subject 
 name 
 date 
hit
10
생명공학

 Wild type

2006/05/10 2599
9
생명공학

 임상실험

2006/05/22 2707
8
생명공학

 Homology of sequences in genetics

2006/05/23 3632
7
생명공학

 위상

2006/06/08 3688
6
생명공학

 Vitreous collagen extraction

2006/09/19 3879
5
생명공학

 stacking gel

2006/09/23 3293

생명공학

 유의확률 (p-value) [1]

2006/10/17 4546
3
생명공학

 표본분산이 모분산에 비해 작은 이유?

2006/10/17 6035
2
생명공학

 실험용 mouse 데이터베이스

2009/11/13 2841
1
생명공학

 Acebrophylline: an airway mucoregulator and anti-inflammatory agent.

2011/06/27 3345
[1] 2

Copyright 1999-2019 Zeroboard / skin by Styx / edited by CreAturE