어이 없는 응답자 분포표

Population 2007년 08월 01일 09시

참으로 실망이다.
그것도 업계 넘버쓰리가 이런 어이 없는 결과를 내보내다니... -_-

- [서울경제 창간특별기획] 설문조사 어떻게 했나

위 기사에서 두종류의 설문조사에 대해
조사회사, 모집단, 조사일정, 조사방법, 응답자분포, 추출방법, 표본오차
등 설문조사에 따른 기초적인 정보를 나열했다.

그중 중간 쯤에 보면...

" 대선후보 지지도 여론조사는 전국의 만19세 이상의 성인남녀 1,000명(남자 494명,
  여자 506명)을 대상으로 했다. 조사는 7월27일 하루였으며 조사대상과 방법은
  2006년12월31일 현재 주민등록 인구 현황에 따라 성별·연령별·지역별 인구구성비에
  맞게 무작위로 추출해 전화면접으로 조사하는 방식(CATI)을 사용했다.

  지역별로는 서울 214명, 인천·경기 269명, 대전·충청 100명, 광주·전라 106명,
  대구·경북 106명, 부산·울산·경남 162명, 강원·제주는 42명이었다. "

간추려보면 아래와 같겠다.

전체 응답자는 1,000명.
그리고 조사 대상자의 자격은 전국의 만19세 이상의 성인남녀.
그리고 2006년12월31일 현재 주민등록 인구.
이를 성별, 연령별, 지역별 인구비례로 할당추출.
전화면접으로 조사.

그러면서 지역별 응답자분포를 나열했는데... 덧셈도 못하나 ?
기자만 덧셈 못하는 줄 알았드만 리서치 밥 먹고 산다는 인간들도 덧셈을 못하다니...

내가 암만 계산해봐도 각 지역별 응답자의 합계는 999명이다.

왜 이런 차이가 발생됐는가 ?
정확한 원인을 확인할 순 없지만 추정은 가능하다.

통상 정치조사는 기사에서 처럼 각 셀(성,연령,지역의 조합)의 인구 구성비를
전체 표본크기(1000명)에 곱해서 얻은 결과 만큼을 각 셀에 할당한 후 조사를 진행한다.
그런데 이때 인구 구성비를 구한 후 각 셀에 반영할 때 정수 처리를 하지 않아서
또는 정수 처리가 적절하지 못했기에 나타날 가능성이 매우 높다.

사람은 소수점으로 나타낼 수 없기 때문에 어떤 기준으로든 간에 반드시 정수로 처리해야
한다. (예:구성비 0.105987 * 전체 조사인원 1000명 -> 105.987 정수화 106명)
그리고 정수 처리를 했을시 합계는 반드시 1,000명이 나와야 한다.
그런데 이 부분을 확인하지 않고 진행했다는 거다.
이때 내 계산 과정이 맞다면 대구·경북 지역에 응답자수는 106명이 아니라 107명이었어야
한다. 그리고 이 결과 합계는 1,000명이 된다.

그럼 원초적으로 응답자가 1,000명이라 했는데 999명 밖에 나오지 않는 이유는
뭣 때문인가 ?

앞서도 잠깐 얘기했는데 이게 업계 생리 때문이다. 뭔소린가 하면...
조사를 하다보면 각 셀에 할당된 인원 만큼을 조사해야 되는데,
응답거부 등으로 인해 할당된 만큼의 응답자를 채우지 못하는 경우가 당연히 발생된다.
그럼 응답자를 채울 때까지 조사하면 문제가 없는데 문제는 밤 10시 이후에 전화하면
무조건 욕 먹게 되어 있기에 더이상 조사를 진행 할 수가 없다.
그러다보면 할당된 수 보다 응답자 수가 넘치는 셀도 있고 모자라는 셀도 있게된다.
그러나 전체적으로 1,000명은 반드시 채워야한다.
(또는 초과하는 것은 괜찮다.)

그럼 이렇게 끝마치고 자료 처리를 하면 별 문제가 없는데,
가중치를 적용해 원래 할당된 수를 기준으로 넘치는 셀은 깍고 모자라는 셀은 덧붙여
궁극적으로 응답 영향력을 조정하여 결과적으로 애초에 할당된 인원 만큼이
응답할 결과를 역계산하게 된다.
(예:할당인원 162명, 실제 응답자수 175명 -> 가중치(162명÷175명)×실제응답자수)
(나로썬 도대체 납득되지 않는 이유로, 모자라는 셀은 욕을 먹어도 당연히 더 조사해야되고
넘치는 셀은 그냥 놔두는게 아니라 무작위로 선택해 제거해야 옳다.)

여기서 총계가 맞지 않는 문제의 소지가 생긴다.
각 셀의 가중치를 건네받아 이를 컴퓨터에 입력하기 전에 정수화된 각 셀의 합계를 반드시
확인해야 하는데, 이를 컴퓨터가 알아서 반영하겠거니 했버리면 앞서 살펴봤듯이 1~2명
차이 때문에 1000명이 안되거나 넘치는 경우가 발생되는 것이다.

아무튼 누가 처리했는지 개념도 없고 누가 담당 했는지 자료 확인도 부실했고
이걸 고대로 받아 쓴 기자는 한심하기 그지 없다.

거 1명 차이 나는거 가지고 되게 깐깐하게구네
라고 말할 수도 있겠지만,
그렇게해도 귀신에 홀렸는지 에러날 땐 에러가 나게 되어있다.
에러는 누구에게나 발생될 수 있기에 그래서 확인에 확인이 필요하다.
거기다 어벙한 연구원 만나면 더 확인해야 된다. -_-

그나저나 유권자 분포표를 하나 만들어 놓으면 좋겠는데, 만19세 정보를 어디서 찾나...
국가통계포털 사이트에 주민등록 인구 자료가 등록되어 있으나 5세 단위로 묶어놔서
만19세 자료만 구할 수가 없다.
그러고보니 그네들은 어디서 만19세 인구수 정보를 알아낸거야 ?

트랙백 주소 :: http://instatistics.officetutor.org/trackback/420

댓글을 달아 주세요