정치와 사회/통계학과 방법론

통계의 기본 원칙

첼린저스 2016. 9. 6. 10:27

통계를 함으로서 가장 기본적인 것이 있습니다.  통계는 사람들 전체의 의견을 모두 물어보는 것이 아니기 때문에,  오류를 줄이고자 철저한 준비 과정을 거치게 됩니다. 한번 살펴보죠



만약 흡연이 학업에 끼치는 영향을 조사한다고 칩시다


Population [모집단] - 우리 학교에 다니는 흡연자들 (직역하자면 "어머니 집단" 이라는 뜻이네요)

Sample [표본 집단] - 흡연자중에서 무작위로 고른 30명

variable [변수] - 개개인의 지식, 열정, 흡연 여부, 평균 취침시간 등등...

data [데이터]  - 흡연자들이 친 시험 결과

statistics [통계] - 무작위로 고른 30명의 시험 결과 평균

parameter [파라미터]  - 우리 학교에 다니는 흡연자들의 시험 결과 평균 예상치 또는 평균점수 (즉 경향성을 보여주는 증거물이면 됩니다, ex 지난 시험에서는 흡연자들이 비흡연자보다 점수가 낮았다 같은 증거 말입니다.)





통계의 중요한 원칙


1) 실험자가 변수를 맘대로 조작 해서는 안 됩니다. 이 경우에는 여론조사나, 출구조사같은 것이 있겠습니다. 조사를 할때 무작위로 해야지, 보수당 지지율이 많은 곳에서만 조사하거나, 아니면 특정 지지층을 물어보고 조사하거나, 남자만 조사하거나, 이런식으로 자신이 원하는 결과를 얻기 위해 조작해서는 안된다는 말입니다.



2) 반드시 원인이 결과를 만들어야 합니다. 즉 내가 풍선을 불면, 풍선이 부풀어 오른다는 것이 증명이 되어야 합니다. 내가 햄버거를 먹으면, 살이 찐다는 것이 증명이 되어야만 하죠. 즉 제가 변수를 조작하면, 그게 제가 보고 싶은 변수에게 변화를 주어야 합니다. 즉 황새의 증가와 아기의 출산율의 경우, 같은 실험의 변수가 될 수가 없다는 것이지요 


무작위 할당 (Random assignment)


주의! 무작위 추출(Random Sampling) 과 무작위 할당(Random Assiagnment)는 틀립니다. 무작위 추출은 population에서 sample을 추출할때 무작위로 아무나 골라서 샘플을 만드는 것이고, 무작위 할당은 샘플을 그룹에 집어넣을때, 같은 확률의 무작위로 각 그룹에 할당하도록 하는 것을 말합니다. 



무선 할당은 통계를 만듬에 있어서 아주 중요합니다. 여러분이 박사님 또는 연구자라고 가정해봅시다. 연구자이니 사람들을 뽑았겠죠? 



연구 주제는 "분노가 학업 성취에 끼치는 영향"입니다. 


시끄러운 락 음악과 욕설을 틀어두고, 불쾌한 기분을 주는 가스로 가득찬 방에서 시험을 줍니다.



쉬운 시험 

어려운 시험 

중간난이도의 시험 

a 학생

b ''

c ''

d ''

e ''

f ''

q 학생

w

r

t

y

1 학생

2

3

4

5

6


자 이렇게 학생들이 배분되었습니다. 만약 학생들이 자신이 무슨 시험을 칠 건지 스스로 정할 수 있다면 열정과 패기와 지성을 갗춙 우등생들은 어려운 시험을 칠 수도 있고, 반면 열정과 지성이 없는 비우등생들은 아마 쉬운 난이도를 치겠죠. 이게 올바른 실험이라 말할 수 있을까요? 즉 여기서 통계를 방해하는 요소가 있습니다. 바로 각 시험 집단마다 학생들의 열정과 지식의 차이가 존재한다는 것이죠. 즉 이 실험을 방해하는 변수는 바로 "열정" 입니다.


실험을 방해하는 변수를 혼재 변수(confounding variable) 라고 합니다. 통계는 이 confounding variable을 줄이려, 난수표를 쓰거나, 아니면 주사위, 코인토스, 제비뽑기를 하게 됩니다. 


제비뽑기를 예를 들자면 저기 위에 18학생들이 18개의 제비가 들어있는 통을 뽑는다면, 각자 확률이 같아지게 됩니다. 각 집단마다 혼재 변수들이 존재할 확룰이 같은 속도로 퍼트려지므로, 이들의 효과가 서로 상쇄되어 없어지게 되죠. 쉽게 말하자면 우등생이 쉬운 시험에 속하게 될수도 있고, 비우등생이 어려운 시험에 속할 수도 있다는 것입니다. 그 반대도 될 수 있고요. 즉 서로 무작위로 집단에 집어넣으므로서 "열정" 또는 "지식유무" 라는 혼재 변수를 날려버릴 수 있습니다.


잠깐! Random과 haphazard의 차이



사람들은 랜덤이라는 것을 아무거나 고르는 것으로 이해하는 경향이 있습니다. 그건 haphazard 라고 합니다. 직역하면 "무계획적인 것" 인데요. 랜덤이라는 것은 어떤 사람이 그것을 고르던지 그 확률이 같아야 합니다. 예를들면 각 부분의 넓이가 다른 다트판을 이용해 추첨하는 것은 haphazard입니다. 꽝이 전체 면적의 40%를 차지하고 나머지 10개 당첨품목이 각자 7-6%안팍이라면 이건 haphazard입니다. 만약 동등한 다트판을 이용했다면 Random이라 말할 수 있습니다. 


마찬가지로 무게가 같은 작대기가 들어있는 제비뽑기나, 주사위, 동전 토스 같은 경우라면 랜덤입니다. 동전의 경우 양 면이 무게가 같아야 합니다. 무게가 다르다면 haphazard입니다. 



오염된 실험


오염된 실험이란, 실험을 당하는 사람들이, 실제로 실험을 하는 연구자의 의도를 파악하는 것을 말합니다. 대표적인 예로 출구조사가 있겠습니다. 출구조사를 하는데 자신은 A후보를 뽑았음에도 자기는 B후보를 뽑았더라고 말하는 사람들이 많았다는 것이죠


시식에서도 블라인드 테스트를 하는데, 와인 심사 때도 각자 와인을 같은 조건에서 어떤 와인인지 정보를 주지 않고, a,b,c,d,e,f등으로 나뉘어서 점수를 주는 이유도 실험의 오염을 막기 위해서입니다. 


저 위의 문단에서 예로 든 "분노가 학업 성취에 끼치는 영향" 역시도, 실험자들이 이 실험의 목적을 알고 있다면, 쉬운 시험을 치는 학생들중, 실험을 도와주려 하는 착한 학생(?)들은 우등생 그룹을 더 돋보이게 해서 원하는 실험결과가 나올수 있도록 시험을 백지로 내서 망치게 할 수 있고, 실험을 망치려는 나쁜 학생들은 우등생 그룹에 속해 있으면서도 시험을 망침으로서 결과가 뒤틀리게 할 수 있습니다.


물론 실험자의 입장에서는 둘다 방해꾼들입니다. 의도가 어떻든 말이죠. 오염된 실험을 막기 위해, 통계에서는 단순맹검법(Single Blind Test) 과 이중맹검법을 사용합니다.


Single Blinded Test / Simple Blind Test (단순맹검법)

실험자는 실험의 내용을 알지만 피실험자는 모르게 하는 방법을 말합니다. 


Double Blind Test (이중맹검법)

이 방법은주로 약 실험에 쓰입니다. 즉 a라는 약물을 투약해야 하는데, 어떤건 물이고 어떤건 진짜 약물입니다. 그래서 서로 효과를 비교하는 실험에서 주로 쓰입니다. 이 경우 이를 환자에게 주사하는 실험자도, 그리고 그걸 맞는 환자도 모르는 상황이어야만 합니다.  



지금까지 통계학자들이 통계의 오류와 오염을 줄이려 노력하는 방법을 알아보았습니다.