이 글은 낚시성 글이다.
평균 구하는 '다른 방법'이 있는건 아니고, 기존에 '있는 방법'이나 간혹 헷갈려하는 분들이
있어보여 낚아봤다. ^^
(아마도 중학교 때 배운 내용이지 안을까 한다.)
자료를 구하다보면 간혹 도수분포표로 집계된 자료는 제공해도 평균은 제공하지 않는
경우가 있다.
이럴 때 엑셀을 이용해 평균을 구하는 방법을 살펴볼까 하는데...
이를 위해 자료는 이번 제18대 국회의원 선거 후보자 정보 중 재산신고액을 이용하겠다.
(중앙선거관리위원회 참조)
총 1,117명 중 재산신고액 1위를 차지한 후보자의 재산이 3조6천억원이 넘는다고 하니 이는
이상치로 판단, 자료처리에는 미반영하도록 하겠다.
즉 총 1,116명의 자료를 처리 대상으로 한다.(300억원 이상에서 1명 제외)
그랬을때 위에 내용을 도수분포표로 재정리하여 히스토그램으로 나타내면...
※주의 : 해당 자료는 인용 과정에 오류가 있을 수 있습니다.
참고로 도수분포표를 작성 할때,
계급구간을 동일간격으로 구성해야 되는데 자료가 한정되어 있는 관계로 그대로 인용하겠다.
그리고 대표값은 각 계급구간의 중앙에 위치하는 값이다.
(산술)평균을 구할때 엑셀에서는 통상 average 함수를 이용하면 쉽게 구할 수 있는데,
이런 경우는 average 함수를 이용 할 수 없다.
그런데 평균을 구하는 수식이 어떻드라... -_-a
음...
진짜 오랫만에 접하는 수식이다.
그런데 이 경우는 도수분포표를 이용하므로 조금 다른 수식을 이용한다.
참고로 변수(X)는 후보자의 재산이나, 원시자료가 없기 때문에 도수분포표의 대표값(m)을
이용한다는 점만 주의하면 된다.
위에 수식을 말로 풀어보면...
각 계급구간의 대표값에 빈도를 곱하여 총 합을 구한 후 이를 총 빈도로 나눈다.
역시나 별거 아니었다.
(빼 먹었는데 위에 f는 각 계급구간의 빈도를 가리킨다.)
그럼 엑셀에서 계산을 해보자.
우선적으로 각 계급구간의 대표값에 빈도를 곱한다.
b3*c3 하면 "-5억원 미만" 계급구간에 대한 값 구하기는 끝.
b4*c4 하면 "-1억원 미만" 계급구간에 대한 값 구하기는 끝.
b5*c5 하면 "-5천만원 미만" 계급구간에 대한 값 구하기는 끝.
....
b17*c17 하면 "300억원 이상" 계급구간에 대한 값 구하기는 끝.
이렇게 쭉~~~ 각 계급구간에 대한 값을 모두 합산한 자료를 구하면 되는데,
기특하게도 이런 계산을 도와주는 함수가 있다.
sumproduct 라고...
=sumproduct(b3:b18,c3:c17)
이제 이 값을 총 빈도로 나누기만 하면 된다.
=sumproduct(b3:b18,c3:c17)/sum(c3:c17)
또는 상대빈도를 이용 할 수도 있다.
(각 계급구간의 상대빈도는 "각 계급구간의 빈도/총 빈도" 이다.)
=sumproduct(b3:b17,d3:d17)
이랬을 때, 후보자의 평균 재산은 약 12.44억원이다.
그렇다면 진짜 평균은 얼마일까?
- 후보자 평균 재산 45억... 체납자 100명 넘어
기사에 따르면 재산 1위 후보자를 포함 할때 45.8억원 이고,
재산 1위 후보자를 제외 할때는 평균 12.8억원 이라 한다.
그렇다면 1위를 제외한 12.8억원이 우리가 구하고자 한 값 되겠다.
그리고 이를 앞서 구한 자료와 비교해보면 약 0.4억원의 차이가 발생하는데,
이는 원시자료가 아닌 도수분포표를 이용함으로써 발생되는 차이로 그 차이가 예상 보다
낮아 보인다.
간단하게 도수분포표를 이용해 평균을 구해봤는데, 이용할 일이 있을지는...



댓글을 달아 주세요