정치와 사회/통계학과 방법론

정규분포와 z점수, z검정에 대해서 알아보자.

첼린저스 2016. 10. 5. 10:36

정규분포는 통계에서 가장 중요한 것으로서, 여러분이 이 단계에서 배우는 모든 확률분포는 모두 이 정규분포를 따른다. 유명한 수학자 가우스가 제안했다고 해서 가우스 분포(Gaussian Distribution)이라고도 한다. 중심 극한 정리에 따르면 정규분포는 어떤 확률분포에 대해서도 적용되는 대단히 좋은 확률분포인 데다, 또한 관측 오차를 설명하는 확률분포이기도 하므로, 세상 모든 일이 정규분포를 따른다고 생각하는 것은 어쩌면 당연한 결론이라 하겠다. 정규분포라는 이름 또한 그런 뜻에서 지어진 것이었다. 



이렇게 고르게 분포되어 있는 것을 우리는 정규분포라고 한다. 거의 대부분의 통계들은 이 정규 분포라는 가정하에 이루어진다. 어떤 현상을 관찰한 결과가 정규분포를 따르지 않는다면, 그것은 자료가 부족한 것으로 생각될 정도였다. 실제로 샘플이 작으면 (5명 이하이거나) 정규분포는 이루어지지 않는다. 기본적으로 40개정도는 되어야 정규분포라고 가정할 수 있는 조건이 된다.


과학에서도 대부분 하나의 원인에서 발생한 것은 정규분포가 아니라고 하며 (예: 눈 색깔) 다중의 원인이 존재한다면 이는 정규분포라고 하는 경우가 많다. 현재 단계에서는 무조건 정규분포가 나오며, 샘플이 40개 이하라면 정규분포를 사용하면 안 된다.


정규분포의 성질


정규분포는 통계에서는 필수적인 것으로서 중앙을 중심으로 50:50으로 나누어진다. 그리고 같은 간격(표준편차)를 기준으로 나뉘어져 있다.

저번 게시글[링크] 에서도 설명한 적 있으나, 정규분포에서는 중앙값,평균,최빈값이 중앙에 존재한다. 또한 3 표준편차를 넘어가는 0.1%의 수는 극한의 수로서 이 극한의 수가 여러분의 샘플애 존재하면 여러분은 가능하면 평균값을 쓰면 안 된다. 중앙값을 써야 한다. 


정규분포표 이해하기


정규분포표란 정규분포의 분포를 알려주는 표이다. z점수를 측정하여 그 점수위의 비율과 아래의 비율을 알려주는 것이 바로 이 표의 역할이다.


몇가지 종류가 있는데, 하나는 본인이 가장 선호하는 표로서 a,b,c 행이 표시된 표라고 해서 a,b,c zscore chart라고 한다. 물론 이 아래에서는 abc chart가 아닌 중앙값부터 특정 지점까지의 값을 계산해놓은 표를 사용한다, 또는 최소점부터 특점 지점까지의 값을 계산해놓은 표를 사용하는데 이 경우는 평균점 이상은 절반을 빼주면 된다. (대부분이 abc chart보단 이걸 쓴다) 


1) Column D는 중심으로부터 해당 지점까지의 비율을 나타낸 것이다

2) Column C는 해당 지점부터 그래프의 끝까지의 비율을 나타낸 것이다.(위에 있는 비율)

3) Column B는 해당 특정 지점 아래에 있는 모든 비율을 나타낸 것이다.

4) Column A는 해당 특정 지점을 이야기하는 것이다.


통계에서는 해당 지점을 기준으로 많은 부분을 차지하는 부분을 body(몸)이라 하고 작은 면적을 차지하는 부분을 tail이라 한다. 


z_table.pdf


ztable.pdf



pdf로 편집해 놓았다. 



z 점수 이해하기


정규분포인 100명의 그룹이 있고 이들의 평균이 75이라고 해보자. 이 그룹중에서 a군은 63점을 맞았다.. 평균이 75인데 a군은 자신이 100명 중에서 몇%안애 존재하고 있는지 궁금해졌다. 


먼저 z점수라는 것을 계산해보자




z  점수란 여러분의 점수가 평균으로부터 얼마나 떨어져 있는지를 표준편차(standard deviation) 를 이용해 설명하는 척도이다. 즉 여러분이 1.67의 z점수를 얻었다면 이 말은 여러분의 점수가 1.67표준편차만큼 평균값에서 멀어져 있다는 것이다. 



표준값을 계산해보면 


63점(a군의 점수) - 75점(평균) / 표준편차 샘플들의 표준편차는 6이다. 


즉 z점수는 -2.17이며, 이는 이 점수가 -2.17 표준편차만큼 평균값에서 멀어져 있다는 것이다. 저번 글에서 나오는 극단적인 수 (outliers)에 대해서도 만약 여러분이 이 z점수를 계산해서 만약 z가 3표준편차 이상이 나오면 해당 샘플은 outlier가 존재한다고 결론지을 수 있다. 그럼 그 경우애는 평균값을 사용하지 않고 중앙값을 사용한다.


z점수를 이용한 간단한 z 검정

자 그럼 a군의 점수를 이용하여 z검정을 해보자. a군의 z점수는 -2.17이다. 해당 도표를 보자. 해당 도표는 중간값에서 +2.17 표준편차까지의 면적을 나타내는 것이다. (+이다) 자 그럼 평균값부터 +2.17 표준편차까지의 거리가 0.4850이라고 한다. 


위에서 정규분포는 중앙값을 기준으로 대칭된다고 이야기한적이 있다. 마찬가지이다. 중앙값을 기준으로 2.17까지 0.4850이라면, 중앙값을 기준으로 -2.17까지도 0.4850이 되는 것이다. 

 




그렇다면 중앙값을 기준으로 서로 50:50으로 양분하고


중앙값부터 -2.17까지의 거리는 0.4850이다. 


총 거리를 1로 확보했을때


0.50-0.485=0.115 라고 볼 수 있다. 


즉 11.5%만의 학생이 a군의 아래에 존재한다고 대략적으로 증명이 가능하다.