정치와 사회/통계학과 방법론

변수의 종류와 실험, 그리고 검정

첼린저스 2016. 9. 8. 11:16

오늘은 변수에 대해서 알아보도록 하죠. 가능한 한 쉽게 설명해보려고 합니다만 조금 어려울수도 있습니다. 영어 variable에 대응하는 한국어 단어는 변인 또는 변수인데 사실 같은 말이니 신경 안 쓰셔도 됩니다.


독립 변수  vs 종속 변수(Independent variable vs Dependent Variable)


독립 변수(IV)는 변수의 조작이 가능한 변수입니다. 통계에서는 주로 독립 변수는 한가지가 존재하지 않지만 여러가지가 존재합니다. 


독립 변수는 True IV 와 Quasi-Iv로 나누어집니다. 비측정 변수(quasi-variable)는 저번에서 언급한 "무작위 할당"(random assignment)에 의한 것이 아닌, 성적 성향이나, 흡연,비흡연의 여부, 나이, 인종등에 따라 나누어질 수 있는 것입니다. 즉 제가 우리 학교를 다니고 있는 흡연자들중 30명을 뽑고 이들을 남자 여자로 나눈다면 이들은 비측정 변수가 되는 것입니다. 그러나 제비뽑기등을 통해 나누어진 그룹에, 같은 환경을 맟춘 후 서로 다른 난이도의 시험을 준다면 이들은 측정 변수(True-IV)가 됩니다.


종속 변수는 측정되는(measured)가 되는 것이고 반드시 주관적이 아니라 객관적인 수로 측정되어야 합니다 " 아 오늘은 날씨가 좋아졌다" 식으로의 주관적인 부분은 종속 변수라고 말 할 수 없습니다. 


예측 변인  vs 기준 변인 (Predictor Variable vs Criterion Variable)


이 분류는 사실 독립변수와 종속 변수의 다른 말입니다. 예측 변인들은 연구자가 조작할 수 있는 부분이고 여러가지가 존재할 수 있습니다.  마찬가지로 기준변인은 종속 변수의 다른 말로서, 실험자가 보고자 하는 변수를 말합니다. 


그럼에도 불구하고 이를 굳이 언급하는 이유는 우리가 예측 변인이라 할 때는 이것이 반드시 측정될 수 있어야 합니다. 예를들면 IQ와 시험성적관의 관계라는지 말입니다. 



실험과 비실험, 준실험 (True-experiment, Non-experiment and Quasi-experiment)


실험(true experiment)은 모든 것이 측정 변수로만 이루어진 것을 말합니다. 예를 들어 이렇게 동전 앞면과 동전 뒷면으로 공평하게 무작위로 편을 갈라서 각자의 편(그룹)마다 각자 다른 실험을 하는 것을 말합니다. 


반면 비실험은 모든 변수들이 죄다 quasi-variable(비측정 변수)로 이루어진 실험입니다. 비 실험은 집단을 미리 테스트하지 않습니다. 이부분에 대해서는 추후 설명하도록 하겠습니다. 



다만 이런 실험에서 주의해야 할것은, 위의 진실험의 예처럼 미연시게임과 폭력게임을 서로 다른 그룹애게 주어 환경을 다르게 할것이 아니라, 왠만하면 모두 같은 환경에서 나이나 성별을 기준으로 나눈뒤 폭력적인 게임을 플레이하게 하여 결과가 어떻게돠는지를 보는 실험이어야 합니다. 안그러면 너무 복잡해 집니다. 


비측정 변수와 준실험 Quasi Variable and Quasi-experiment


위에서 quasi variable과 true-Independent variable이 동시에 쓰이는 실험을 말합니다. 


이산 변수  vs 연속 변수 (Discrete variable vs Continuous Variable)


이산 변수는 자연수를 값으로 가지는 변수를 말합니다. 연속변수는 0.12231232같은 무한한 소수점의 값을 가지는 변수를 말합니다. 이산 변수의 예로서는 나이나 갯수등을 말합니다 사람 1.5명은 존재할 수 없고 동물 1.25마리는 존재할 수 없죠. 이산 변수는 바로 이런 개념입니다. 연속 변수의 개념으로서는 성적이 있습니다. 성적의 경우 무한소수가 나올수도 있고 특히 평균점수같은경우 자연수로 딱딱 나누어 떨어지지 않습니다. 


연속 변수는 이산변수로 변경해야 합니다. 예를들면 평균점수를 분류할때 50이하, 50-60, 60-70, 80-90,90-100 이렇게 구간을 정하는 식으로 이산변수로 취급될수도 있습니다. 통계에서는 왠만하면 변수가 그대로 쓰이지 않습니다. 


질적 변수  vs 양적 변수(Qualitative Variable vs Quantitative Variable)


양적 변수는 한마디로 말하자면 셀수 있는 변수이고 질적 변수는 셀수 없는 변수라고 말할 수 있습니다. 독립변수는 질적 변수가 될수도 있고, 양적 변수가 될수도 있지만, 종속변수는 반드시 질적 변수여야 합니다. 이는 True-IV와 quasi-iv와 잘 구분하여야 합니다. 나이 같은 양적 변수라도 quasi-variable일수도 있기 때문입니다. 질적 변수와 양적 변수를 가르는 기준은 셀수 있는가 없는가입니다. 




혼재변수는 전에도 언급했듯이 명확한 정보 판단을 방해하는 것입니다. 예를들면 제가 학생들에게 이 실험에서 게임을 선택할 수 있는 권한을 주었다면, 아마 남자 아이들이 주로 러스트를 고르고, 여자 아이들이 프린세스 메이커와 같은 미연시 게임을 고르겠죠. 그리고 성별상으로 유년기 남성이 성적이 유년기 여성보다 집중력이 떨어지는 만큼, 이것이 올바른 실험 결과를 내는 것을 방해할 수도 있습니다. 즉 집중력이 혼재 변수(confounding variable)가 되는 것이죠. 


혼재 변수가 생기는 원인은 두가지가 있습니다


하나로는 혼재변수의 예와 같이, 집단에게 특정 그룹을 선택할 권한을 주거나, 올바르지 않은 방법(동전 앞뒷면의 무게가 다르다던가)으로 각 그룹에 걸릴 확률이 달라서 (즉 무작위 배정이 아니라서), 특정 그룹에 경향성이 생기는 경우 생깁니다. 


두번째로는,  문제를 햇갈리게 내거나 톤과, 문장이 서로 다른 경우 일어납니다. 문제를 햇갈리게 만드는 대표적인 예가 0000법안 반대안에 찬성하십니까 반대하십니까? 같은 질문이 있습니다.


톤과 문장이 다른 경우, 실험자가 피실험자에게 구두로 문제를 설명할때 발생할 수 있습니다. 




검정(test)의 대략적인 이해


(이 사진은 전 문단이랑 똑같습니다)



혼재변수를 모두 제외했다 치고, 양측의 평균 점수를 비교해봅시다. 일반적인 사람들이라면, 폭력적인 게임이 아이들에게 미치는 영향이 크다고 성급하게 결론지을 수 있습니다. 그러나 사실 이건 성급한 결정입니다. 


우선 두 집단을 비교해보고 나온 평균치의 편차는 우리가 설명할 수 있는 편차(explained variation)입니다. 이 설명할 수 있는 편차(두 그룹간에 편차가 37점이나 나는군요)를 가지고 사람들은 주로 선 판단을 합니다. 


그러나 이 둘의 관계성은 확실할 수는 없습니다. 황새의 증가수와 출생의 증가수도 있을 수 있습니다. 이 둘이 같이 비슷한 비율로 증가한다고 해도 말입니다. 이 주제의 실험에서도 아마 시험 참가자들이 개인사정이 있거나, 아마 머리가 태생적으로 나쁜 사람인데 단지 무작위 지정으로 인해 폭력적인 게임 그룹에 들어와 시험 밑을 깔아줬을지도 모르는 일입니다. 각자 개개인의 사정과 차이는 왜 우리가 이러한 차이가 만들어지는자 모르므로 설명할 수 없는 


이를 도와주는게 z검정, t검정, f검정 HSD검정, 카이제곱검정같은 "검정" 과정입니다. 대부분의 검정 과정은 다음과 같은 수식을 가지고 있습니다.




한국말로 번역하면 이렇습니다. 




즉 특정 함수식에 들어간 설명불가편차가 들어가서 나온 값으로, 같은 함수수식에 들어간 설명가능 편차를 나누어서 나온 값이 임계값보다 많아야 검정과정이 됩니다. x검정이던 z검정이던, 우선 이 공식은 기본입니다


깐! 임계값이란?

하나의 변수 x가 어느 값이 되었을 때 특이한 상태나 급격한 변화가 일어나 임계 상태에 있을 때의 x값


만약 임계값이 4라고 가정해보죠. 설명할수 있는 편차는 37점이고 설명할수 없는 편차가 20이라고 가정해봅시다. (함수는 없다 가정합니다) 그럼 임계값인 4보다 작으니, 우리는 이 상관관계를 보고 폭력적인 게임과 아이들의 성적에 미치는 영향의 상관관계를 확신할 수 없다는 겁니다.(설명할수 없는 편차의 계산이나 자세한건 나중에 알려드릴겁니다)


이와 같은 경우랑 반대로, 평균값이 얼마 차이가 안나더라도(러스트를 하는 분류의 평균점수를 75점이라 가정해보죠) 설명할수 없는 편차가 1이라면

 이니깐 평균값이 차이가 얼마 안 나더라도 우리는 폭력적인 게임과 아이들의 성적의 상관관계가 있다고 판단할 수 있습니다. 다만 주의할건 이곳에서 상관관계를 파악할 수 있어도, 폭력적인 게임이 아이들의 성적을 망치는 원인이라고 단정지을수는 없습니다. 


그건 자연과학이 해야하는 것이지 사회과학이 해야할 분야가 아닙니다. 즉 성적을 망치는 요인 중의 하나가 될 수 있다는 거고, 이 둘이 어느정도 상관관계가 있음을 확신할수 있는 수준이라는 거지, 결코 성적을 망치는 원인이 게임이라는 도출을 낼수는 없습니다. 



이상으로 검정에 대한 대략적인 설명을 마치겠습니다. 사실 검정이라는게 엄청 어려운 건데 줄여서 대충 설명하려니까 더 머리가 터지네요. 부디 이걸 읽어보시고 왜 우리가 검정을 해야하는가에 대한 대략적인 이해를 하셨기를 바랍니다..