정치와 사회/통계학과 방법론

샘플을 편향되게 만들 수 있는 9가지 방법

첼린저스 2017. 4. 25. 18:01

여러분은 통계를 하면서 서베이(survey)나 사전조사에 대해서 들어본적이 있을 것이고, 이는 지금까지 다루어 온 실험(experiment)에서도 sample을 고르는 것을 중요하게 여긴다는 것을 강조하였다. 만약 여러분의 조사나 연구가 앞으로 서술될 9가지 이유에 의해 크게 편향되었을 경우, 사이즈는 아무런 도움이 되지 않는다. 이유인즉슨, 샘플이 이미 여러분이 조사를 하고자 하는 모집단을 대표하지 않기 때문이다. 


통계는 편항성과의 싸움이다. 모든 샘플은 어느정도 편향되었으며, 편향되지 않는, 최대한 공정한 샘플을 만들기 위해 노력하는 것이 통계학이다. 여러분이 설문조사를 하기 위해 대한민국 5000만 국민에게 우편을 보내거나 전화를 걸 수 없다. 그러니 공정한 과정을 통해 샘플을 뽑고 (100명정도) 그 사람들의 답변을 통해 대한민국 5000만 국민(모집단)의 여론을 추정하는 것이 통계학이다. 


자 그럼 여러분이 힘들게 뽑은 샘플이 빗나가는 9가지 이유를 알아보자. 


1. Household Bias (가정이나 그룹 내에 생길 수 있는 편향성)


가구를 조사할 때 1인 가구, 2인 가구, 3인 가구, 4인 가구, 대가족 등 여러 가구들이 조사되는데, 만약 연구나 실험에서 각 가구당 한 명씩 차출해서 뽑으면 1인 가구는 모든 가구의 의사가 반영되는데 비해, 4인가구나 대가족같은 규모가 큰 가구들은 불이익을 보게 된다. 가구 조사에서 1인 가구인가, 2인 가구인가 이런식으로 엄격하게 조사하는 것은 바로 이 편향성 때문이기도 하다. 


굳이 가정 뿐만이 아니라, Household bias는 같은 단위로 묶이는 단체(그룹)을 상대로도 적용할 수 있다.


2. Nonresponse Bias (답변하지 않는 것에서 생길수 있는 편향성)


주로 우편으로 배달되는 설문조사에서 일어날 수 있는 편향성이다. 만약 랜덤으로 1000명에게 우편으로 설문지를 보내오면, 이 설문지에 답변하는 사람이 얼마 되지 않는다. 이러한 설문조사는 상당한 편향성을 불러일으킬 수 있다. 이것은 설문조사의 질문이 상당히 어렵다고 느껴지는 사람들, 또는 모종의 이유로 설문조사기관과의 접촉이 어려운 사람들이 제외되는 효과를 가져올 수 있기 때문이다. 지금까지 알려진 바로는 설문조사의 질문이 쉬울수록, 응답률이 높아졌고, 답변하면 보상을 주거나 돈을 준다는등의 보상을 하면 응답률이 높은 것으로 나타났다.


전화가 걸려오거나 우편으로 배달되는 설문조사를 받는다면 제발 답해주길 바란다. 대학원생 운다. ㅠㅠ


3. Quota Sampling Bias (샘플을 잘못 할당하는 것에서 생길 수 있는 편향성)


1936년 표본(sample)을 추출하는 새로운 방법이 개발되는데, 바로 할당 추출법이라는 것이다. 사회의 인구 구성과 특성을 고려하여 샘플을 추출하는 것을 이야기한다 예를들어 천주교가 80%고 개신교가 20%이라면 샘플중에서 80%는 천주교, 20%는 개신교 인구중 랜덤을 추출하는 것이라고 볼 수 있다. 이것이 바로 할당 추출법(quota sampling)이라고 한다.


그러나 이것은 상당히 위험한 방법으로서, 하나의 부분에 집중을 하려다가 다른 부분을 놓칠 수 있다. 위의 예시(천주교와 개신교)는 사회 구성을 이야기한다 하면서도 남자와 여자의 차이를 고려하지 않았으며, 세대차이도 고려하지 않았다. 이 편향성을 막기 위해서는 자신이 조사해야 할 인구를 정확하게 정의할 필요가 있다. 남녀평등에 대한 인식"과 같은 질문에서는 생물학적인 남성와 여성을 분리하는 것이 지당하다. 다만 세대갈등을 조사해야 하는 연구에서 남자와 여자를 분리하여 서로 할당한다면 quota sampling bias를 만들 수 있다.  


이 방법으로 편향성이 생긴다면 해당 연구나 실험은 주체자가 샘플을 마구잡이로 뽑을 수 있는 권한을 가졌을 확률이 높다. 


4. Response Bias (이 거짓말을 하거나 지시에 불성실하게 임하는 것에서 생길 수 있는 편항성)


심플하게 생각해보자, 어느날 조사관이 당신을 찾아와 당신은 어제 몇 시간 공부했죠? 라고 물어본다면, 당신은 어떻게 답할 것인가? 당연히 대부분의 사람들은 "저는 어저께 많은 공부를 했습니다 밤까지 새서 말이죠" 라고 답할 것이다. 사실은 낮에는 컴퓨터나 만지작 거리다가 밤에 쫒겨 한 것임에도 불구하고 말이다.


이와같이 사람들은 자신의 양심에 찔리는 것이나, 사회적 지탄을 받는 주장인 경우 그것을 앞에서 대놓고 드러내는 것을 원하지 않는다. 또한 조사를 교란시키기 위해 거짓말을 하기도 하며, 자신의 자존심을 지키기 위해서 실제 수치보다 적게 쓰기도 한다 (체중 감량에 대한 연구라던지..) 필자는 심리학 설문조사에 참여했던 적이 있는데 너무 졸려서 자 버렸다. 이것도 그 연구의 response bias를 증가시킨다. 


또한 사람들이 이것이 설문조사임을 알고, 설문자들이 원하는 답을 쉽게 얻을 수 있도록 좋은 의도로 거짓말을 하는 경우도 많다.. 물론 좋은 의도였겠지만 이 역시 편향성을 증가시킨다. 


Q1 당신은 사회적 변화를 정말 끔찍히 싫어하십니까? 

Q2 인종의 차이가 당신을 불편하게 합니까?


"권위주의"에 대한 연구에서 발췌


당연히 사회과학은 이런 직설적인 설문지를 내지 않는다. 돌아오는 대답이 거짓말일 가능성이 높기 때문이다. 대놓고 이것이 연구자료로 쓰일거라고 이야기하지도 않는다. 정치학이나 수많은 사회과학 분야에서는 철저하게 페이퍼컴퍼니를 설립하거나 일반적 회사인 것처럼 위장하여 설문지를 내는 경우가 많다. (특히 예민한 질문을 물어볼때) 즉 이 설문지를 받는 사람으로 하여금, 이것이 설문조사임을 모르게 하여 선의적인 거짓말 또는 악의적인 거짓말을 막아내려는 의도이다.


사회과학에서는 권위주의에 대한 연구를 할때 "당신은 인종차별주의자인가요?" 또는 "당신은 수구적인 사람인가요?" 라고 묻기보다는 철저히 의도를 감춘다. 대신 "아이를 양육하는 방식"에 대해 묻는다. 특정 사례에 대한 의견을 묻기보다는 권위주의의 속성(복종,위엄)에 맟추어서 예민하지 않은 문제를 물어본다. 이는 2016년 미국 대선에서도 쓰인 방식이다.  


실제로 이 설문지에서 권위를 중시하는 답을 고른 집단이 트럼프를 지지하는 비율이 압도적으로 높았음이 증명되었다. 



번역


1. 여러분의 아이를 양육하는데 있어 아이에게 가장 중요한 것은 무엇인가요? 

_ 독립성

_ 연장자에 대한 예의


2.여러분의 아이를 양육하는데 있어 아이에게 가장 중요한 것은 무엇인가요? 

_순종

_자립심


3.여러분의 아이를 양육하는데 있어 아이에게 가장 중요한 것은 무엇인가요? 

_호기심

_매너, 예의


4. 여러분의 아이를 양육하는데 있어서 아이가 어떤 방향으로 자랐으면 합니까?

_ 사려깊은 아이

_ 예의바른 아이


5. Selection Bias (정 집단을 집중적으로 선택하는 것에서 생길 수 있는 편향성)


1936년 미국 대통령 선거에서 일어난 대표적인 편향성이다. Literary Digest 라는 언론기관은 FDR의 당선 가능성이 상대후보인 공화당의 알프래드 랜든보다 낮다고 잘못 예측하였다. 그 이유는 이 Literary Digest가 전화와 차로 설문조사를 진행했기 때문이다. 당시에는 전화와 차를 가진 사람들이 상류층이나 중상류층 뿐이었으므로 결국 특정 집단을 상대로만 설문조사를 진행한 꼴이 되었다. 이를 Selection Bias라고 한다


6. Size Bias ( 특정 집단에게 표본으로 선정될 수 있는 특혜를 줌으로서 생길수 있는 편향성) 


예를들면 미국 지도를 펼쳐놓고, 15개의 다트를 던져서, 다트를 맞은 15개의 주를 샘플로 하여 만들어진 연구는 Size Bias의 대표적인 예이다. 결국 더 넓은 주들에게 표본(샘플)으로 선정될 수 있는 기회를 준 거나 마찬가지이기 땨문이다. 예를들면 10원, 50원, 500원, 1원, 5원, 100원등이 총합 1000개 들어가 있는 주머니에서, 사람들이 주머니에 손을 넣어 무작위로 동전을 뽑게하고, 그 이후에 거기서 뽑힌 동전으로 그 주머니에 들어있는 동전들의 가치를 측정한다면, 이건 size bias의 예이다. 500원짜리는 가장 면적이 넓기 때문에, 사람들이 가장 고를 수 있는 확률이 많기 때문이다. 


Random assignment (무작위 표본 추출) 가 중요한 이유중에 하나이다.


7. Undercoverage Bias (특정 집단을 누락시키는 것에서 생길 수 있는 편향성)


언뜻 보면 5번이랑 비슷할 수 있지만 은근 다르다. 5번은 특정 집단을 집중적으로 조사하는 것에서 생길수 있는 편향성이다. 그러나 7번은 몇몇 사회적 소수자들을 누락시키는 데에서 생길 수 있는 편향성이다. 예를들면 집전화로 하는 설문조사는 집전화가 없는 사람들을 간단히 누락시키므로서 발생하는 편향성이 나타날 확률이 높다. 


AP시험에서 나왔다 하면 사람들을 낚아가는게 저 5번과 7번을 구분하는 문제이거나 둘다 해당되는 것이 많이 나온다. 낚이지 않게 주의하자. 


TIP - Convenience samples 

Undercoverage Bias에서 중요한 부분은 바로 Convenience sample인데 대충 의미를 보자면 "귀차니즘으로 인해 생긴 편향성..." 같은 느낌이다. 


예를들면 백화점에서 손님들을 상대로 설문조사를 한다거나, 대학에서 설문조사를 한다면, 편향성이 생기는 것은 당연한 이치이다. 대학에서 설문조사를 진행하는 예에서, 학생이 아닌 사람들은 설문조사에서 누락될 수밖에 없다. 대신 바깥에서 설문조사를 하는 만큼 쉽게 샘플을 얻을 수 있다는 장점은 있다. 


집집마다 돌아다니면서 조사를 하는 것도 이 Uncoverage Bias를 일으킬 수 있는데, 죄수들과 집이 없는 거지들을 포함하기 때문이다. 


8. Voluntary Response Bias ( 자발적으로 답변하는 것에서 생길 수 있는 편향성) 


이러한 편향성은 제대로 된 설문조사 기관들이 인터넷에서 설문조사를 하지 않는 이유이다. 인터넷 설문조사는 정치적 활동이 활발한 계층이 자발적으로 참여하는 경우가 많으므로, 무당층의 의견이 반영되지 않을 수가 있다. 예를들면 트위터에서 하는 조사같은 경우, 3당 성향 지지자들이 많으므로, 트위터에서 여론조사를 한다면 제 1당이나 제 2당이 아닌 소수정당에 대한 지지율이 높게 나올 수가 있다. 이는 인터넷에서 사용하는 사람들이 정치에 관심이 활발한 계층이 많기 때문이다. 그러니 인터넷에서 여론조사를 하면 이러한 특성을 가진 사람들에게만 여론조사를 하는 것이 되는 것이다. 


9. Word Bias ( 문제를 잘못 읽는 것에서 생길 수 있는 편향성)


대표적인 예시로 xx법안을 반대하는가? 라는 질문에 "찬성"과 "반대"라는 두가지 선택지가 있다 해보자. 과연 저 찬성과 반대는 질문에 대한 찬성과 반대인가, xx법안에 대한 찬성과 반대인가? 이렇게 고의 또는 실수로 문제를 헷갈리게 내서 편향성을 유발하는 사례가 있다. 이러한 사태를 방지하려면 당연히 유도질문을 삼가해야 한다. 즉 자신이 원하는 결과를 위해서 문제를 꼬지 않는것이 중요하다.


결론


대체 편향되지 않는 샘플은 어디에 있는가? 라고 물을 수도 있다


결론만 말하자면 그런 설문은 없으며 그런 샘플도 없다. 완벽한 원이 없는 것처럼, 완벽하게 모집단을 대표할 수 있는 샘플은 없다. 사회과학자들과 통계학자들은 자신의 모델을 통해 질문을 선정하고 그 연구에서 쉽게 발생할수 있는 편향성을 최대한 막으려고 노력한다. 


당연하겠지만 편향성은 연구에서 하나만 나타나지 않는다. 중립적이지 않은 질문은 9번 word bias 또는 response bias를 둘다 유발할 수 있으며, 헷갈리기 좋은 5번과 7번 항목은 언제나 손에 손을 잡고 같이 연구자를 괴롭히는 경우가 많다. 또는 8번 voluntary bias와 nonresponse bias는 꽤나 붙어다닐때가 많다. 


한국어에서는 이 BIAS라는 것을 번역하기가 쉽지 않아서 "편향성"이라 번역하였다. 일부러 직역하려 하지 말고 단어는 단어 그대로 이해하는 것이 좋다.