모노산달로스의 행보

[Statistics] P값(P-value)란 무엇인가? (유의 수준, 신뢰 구간, 귀무가설) 본문

Math/Statistics

[Statistics] P값(P-value)란 무엇인가? (유의 수준, 신뢰 구간, 귀무가설)

모노산달로스 2024. 7. 10. 15:04

Statistics - P-value

현대 수리통계학의 창시자 칼 피어슨

"통계학은 과학의 문법이다" 칼 피어슨은 이런 말을 했습니다. 과학의 기본 도구로써 통계는 매우 유용하게 사용됩니다. 데이터의 중요성이 높아진 지금 통계학의 중요성은 더욱 커져가고 있습니다. 특히나 복잡한 데이터를 이해하고 해석하여 정확한 결론을 도출하는 능력을 갖추기 위해서 꼭 필요한 학문입니다.

동전 던지기

동전 던지기의 결과는 앞면 혹은 뒷면 두 가지가 존재합니다.

 

동전 던지기를 한다고 가정해 봅시다. 여기서 이해를 쉽게 하기 위하여 동전 던지기의 확률이 독립적이지 않다고 가정해 보겠습니다. 동전이 조작되어 있지 않다면, 결과로 나오는 앞면과 뒷면은 모두 0.5의 확률을 가집니다. 그렇다면 실제로 동전을 다섯 번 던진 결과를 아래에 표로 정리해 보겠습니다.

 

횟수 결과 확률
1 뒷면 0.5
2 뒷면 0.25
3 뒷면 0.12
4 뒷면 0.06
5 뒷면 0.03

 

위와 같은 결과가 나온다면 어떤 생각이 드시나요? 뒷면이 다섯 번 연속으로 나왔습니다. 한 번 혹은 두 번은 그럴 수 있다고 생각합니다. 하지만 일정 횟수를 넘어가면 우리는 동전이 조작되어 있는건 아닌지 의심하게 됩니다.

 

만약 우리가 의심을 하게 되는 확률을 0.05라고 가정합시다. 이러한 기준을 유의 수준(Significant Level)이라고 합니다. 네 번째 시도까지는 그 확률이 유의 수준보다 높으므로 신뢰 구간(Confidence Interval)에 존재한다고 표현합니다. 신뢰구간은 우리가 설정하기에 따라 달라집니다. 만약 의학이나 검증 분야와 같이 안전이 중요한 산업에서는 신뢰구간이 더욱 높아질 수 있습니다.

 


P값(P-value)

What is P-value?

 

그렇다면 P값은 대체 무엇을 의미할까요? 귀무가설(Null Hypothesis)이 참이라는 가정 하에, 데이터가 나올 확률을 의미합니다. 즉, 동전을 던졌을 때 해당 면이 나올 확률 그 자체를 의미합니다.

 

위 예시에서 다섯 번째 시도의 결과가 뒷면이 나올 확률, 다시 말해 P값은 0.03입니다. 이는 우리가 설정한 유의 수준보다 낮기 때문에 귀무가설을 부정할 수 있습니다. 그렇다면 귀무가설이란 대체 무엇일까요?

 


귀무가설(Null Hypothesis)

https://evaluationcomics.freshspectrum.com/comic/youre-the-null-hypothesis/

 

귀무가설이란 통계적 검정에서 '변화가 없거나 효과가 없다'는 기본 가정을 나타내는 가설입니다. 다시 말해 위 예시에서 '동전 던지기의 결과는 공평할 것이다'라는 게 바로 귀무가설입니다. 앞서 이야기한 귀무가설을 부정한다는 이야기가 바로 '동전 던지기의 결과는 공평하지 않다'라고 생각하는 것을 의미합니다.

P값이 유의 수준보다 낮으면, 귀무가설(동전 던지기의 결과는 공평하다)을 부정할 수 있다.

 

이제 위 문장을 이해할 수 있을 것입니다.