그림 그리기

Population 2008년 05월 15일 23시

다른 나라와 비교 했을 때 우리나라 정부에 대한 신뢰도가 바닥이란다. -_-;;

- [국제여론조사] 한국인 80%가 "정부 못 믿겠다"

기사 내용 중 '정부신뢰' 비율과 '정부 이익집단 대변' 비율을 간단히 정리해보면...

01
※ 주의 : 해당 자료는 인용 과정에 오류가 있을 수 있습니다.

두 변수간에 음에 상관관계가 나타나고 있다.
즉 특정 이익집단에 치우지는 정부일수록 정부에 대한 신뢰도는 떨어진다는 것인데,
우리나라가 도대체 어디로 가려고 하는지 걱정 안할 수 없는 노릇이다.
4·19도 아닐진데 중고등학생이 길거리로 나오는 지경까지 됐으니...

그러고보면 정부 탓만 할 것도 아니다.
세금 제대로 안내고, 원산지 속이고, 넘들 하니까 나도 한다는 식에 국민이 넘쳐나는
마당이니 따로 할 말도 없다. -_-;;

그건 그렇고...
위에 차트를 이용해 간단한 그림을 그려볼까 한다.
뭐 대단한 그림은 아니고, 근접해 보이는 국가들끼리 묶어주는 작업이다.

02

이렇게 묶어주고 보니 A와 B, C와 D가 상대적으로 근접해 보인다.
그럼 이네들을 또 묶어줄까?
(이 선택은 분석자의 몫이다.)

03

이렇게 묶고 보니 이번엔 가,나,다,라 묶음이 근접해 보여 또다시 묶어주면...

04

그림 그리기는 열심히한거 같은데... 이게 뭐지?

통계에서는 이를 군집분석(Cluster Analysis)이라 하는데, 
심히 '안' 인간적인 분석되겠다. -_-;; 
머리가 따라주지 않아 모르기도 하지만 다변량 분석이 대부분 그러하듯
계산이 복잡하고 해석도 어려우며 분산이 비대하게 증가하여
보기는 그럴싸해도 막상 접하면 시름만 쌓인다.
(귀 동냥으로는 데이타마이닝이 별볼일 못 본 이유도 분산이 커져서였다고 하던데
믿거나 말거나다.)

여기선 변수가 x, y 두개고 자료도 십여건에 그쳐 그나마 차트를 이용해 묶어줄 수 있었지만,
무식한 넘들은 수십개의 변수와 몇백건의 자료로 구성되어 있어 차트를 이용한다는건 거의
불가능이다.

06 

물론 계산하는 공식은 있으나 수작업으로 한다는건 정신 건강에 상당한 지장(?)을 
초래할 수 있으므로, 통계프로그램을 이용해 처리하면 아래와 같은 그림을 얻게 된다.
(아래 그림을 덴드로그램이라고 한다.)

05 
(역시 눈대중으로 그린 것과 조금 차이가 발생했다.)

최종 묶음을 몇개로 할지는 분석자가 정하면 되는데...
a,b 두 묶음으로 하면 간단하긴 하나 a 묶음이 너무 포괄적이게 된다.
그래서 가,나,다,라,b 5개 묶음으로 정할까 하는데...
어떻게 해석하남? -_-a

해석은 각 묶음에 속한 관찰값의 공통된 속성을 찾아내는 방식인데...
우리나라와 멕시코, 우크라이나의 공통분모가 뭐야? 
터키와 인도, 아제르바이잔의 공통분모는 또 뭐고?
중국과 이집트의 공통분모는 뭐지?
그리고 미국과 나이지라아는 또 뭐고?

서로 근접해 있다는 것은 공통된 뭔가가 존재할 가능성이 높다는 것인데,
우리나라도 제대로 모르겠구만 다른 나라 사정을 어떻게 알아 해석할지 대략 난감이다.


트랙백 주소 :: http://instatistics.officetutor.org/trackback/894

댓글을 달아 주세요