∞C30

Population 2007년 09월 27일 11시

공공 공사의 경우 예가 15개를 임의로 선정하여 그중 4개를 무작위로 뽑아 평균을 구한 후,
그 평균 보다 크거나 같은 입찰가에서 가장 작은 값을 적격심사 1순위로 선정한다고 하는데...
우리도 간단한 뽑기 한번 해보자.

21

1000과 2000 사이의 위치하는 숫자 중 임의로 15개의 숫자를 위에 처럼 구했다.
그리고 일정한 간격을 나눠 구간을 구분한 후 15개 숫자에 대한 구간별 빈도와
상대빈도(비율)를 구했다.

22

23

임의로 만들다보니... 이빨이 빠진 구간도 있고 많은 구간도 있고 그렇다.

자 이제, 이 15개의 숫자 중 무작위로 4개를 뽑아내는 경우를 생각해보자.
15개 중에서 4개를 뽑는 경우의 수는 (15*14*13*12)/(4*3*2*1)=1365 가지다.
그래서 1365 경우의 수 모두에 해당하는 조합을 만들어 구간별 빈도와 상대빈도를 구한다.

24

25

오호~~~ 자료가 상당히 이쁘장하게 나와줬다.
그리고 4개씩 뽑는 1365 가지 경우의 평균에 평균을 구하면... 1550.6 이다.
또 4개씩 뽑는 1365 가지 경우의 분산에 평균을 구하면... 280.6² 이다.

그런데 임의의 숫자 15개의 평균이 얼마지?
1550.6 이다.
어라!!! 똑같네.
그럼 임의의 숫자 15개의 분산은 얼마지?
280.6² 이다.
어라!!! 이것도 똑같네.
신기하다~~~

혹시 우연히 맞은거 아녀?

이게 우연인지 아닌지 다른 조합을 만들어보자.
위에서는 4개 뽑는 경우를 보여줬는데, 좀더 확장을 해서 2개부터 7개까지 뽑는 경우를
가정해 조합을 만들고, 해당 조합별도 얻은 평균의 빈도를 구해 상대빈도(비율)로
나타내보면...

26

27

28

그림을 보니 뽑는 횟수가 커질수록 평균의 분포(비율)는 안정적이고 집중되어 보인다.

그리고 앞서처럼 조합별로 평균의 평균과 분산을 각각 구해 정리해보면...

29

조합별로 구성된 평균과 분산이 원래 임의의 수 15개를 가지고 구한 평균과 분산과 같다.
이는 표본평균과 표본분산이 불편성과 일치성을 만족하기 때문인데...
이 성질 덕분에, 입찰들어갈 때 일부러 15C4의 조합을 만들고 그 평균을 별도로 구할 필요가
없는 것이다.
(물론 지금은 입찰 제도가 바껴 임의의 수 15개를 알 수도 없지만)

그런데 위 그림에서 뽑는 횟수가 증가할 수록 분포가 익히 보아온 종 모양인 정규분포와
거의 흡사해 진다.

30

이게 그 유명한 그리고 거의 절대적인 중심극한정리(Central Limit Theroem, CLT)다.

중심극한정리는...
원 변수(X)의 평균이 μ 이고 분산이 σ² 일때, 모집단으로 부터 무작위로 n개를 뽑아서(추출)
구한 표본의 평균(X_bar)은 표본크기(n)가 클 수록 평균이 μ 이고 분산이 σ² /n 인
정규분포를 따른다. 즉
표본평균(X_bar) ~ 근사 N(μ,σ² /n)
이고, '표본크기(n)'가 크다는 통상적으로 30 이상 이다.
(원 변수(X) 분포에 대한 이론이 아니라, 표본평균(X_bar)의 분포에 대한 이론인 것에 주의)

즉 원래의 변수가 어떤 분포를 갖는지 몰라도, 표본에서 얻은 평균과 분산을 통해 원 변수의
(모)평균이 어느 위치에 있을지를 알 수 있다는 거다.
(아마도 이 이론이 깨진다면, 통계학 책 전부를 불태워야 할지도 모를 사태가 발생될 것이다.)

참고로 중심극한정리에 대한 증명은...
개구멍으로 힘들게 빠져 나오느라 두고 나왔으니 개별 확인 바란다. -_-;;

그런데 뭔가 좀 낯설다.
매우 중요한 정리라며 '평균근사정규정리(가칭)'가 아니라 왜 '중심극한정리'지?

여기에 힌트는 '극한(limit)'에 있다.
앞서 임의의 수 15개에 대한 조합별 평균과 분산을 가지고 중심극한정리에 대입해 보면...

31 

95% 신뢰구간 즉 모평균이 위치하고 있을 것으로 추정되는 범위는, 뽑는 횟수(표본크기)가
많을 수록 수렴하기에다.

32

즉 신뢰구간의 폭과 표본크기(n)는 반비례 관계다.

신뢰구간의 폭 ∝ 1/√n

그래서 표본크기가 클 수록 좋은데, 그렇다고 큰게 마냥 좋은건 아니다.
예전에도 얘기했듯이, 비표본오차라는 통제 영역을 벗어난 오차가 상존하고 있기 때문인데
그러기에 적절한 표본을 선택해야 되는거다.

트랙백 주소 :: http://instatistics.officetutor.org/trackback/566

댓글을 달아 주세요

  1. 초보 2008년 11월 14일 21시  댓글주소  수정/삭제  댓글쓰기

    공사입찰에 관심이있습니다.

    15개 중에서 4개를 뽑는 경우의 수는 (15*14*13*12)/(4*3*2*1)=1365 가지다.
    그래서 1365 경우의 수 모두에 해당하는 조합을 만들어 구간별 빈도와 상대빈도를 구한다.

    구간별 빈도는 어떻게 구하나요
    평균과 분산평균을 또 어떻게 구하는지 가려켜주세요
    공부를 할려고 하니 엄청어렵네요
    감사합니다.

    • OnRainbow 2008년 11월 14일 22시  댓글주소  수정/삭제

      안녕하세요.
      제가 잘 모르는 분야를 물어보셨는데요,
      우선 도수분포표 작성 방법을 아셔야 합니다.
      그러기 위해서는 경우의 수 만큼 조합을 생성해
      각각의 조합에 대한 평균을 구해야 합니다.
      인터넷에 좋은 자료가 많을텐데...
      다른 글에서 도수분포표, 조합생성에 대해 살짝 다룬게 있으니
      미력합니다만 참고해 보세요.

      그리고 마지막 표에서 보듯,
      간단히 15개의 수에 대한 평균과 분산을 구하면 됩니다.
      복잡하게 조합을 만들지 않아도 되죠.

      그러나 이제는 제도가 바껴, 그 15개의 숫자도
      정확히 알 수 없는 것으로 알고 있습니다.
      그래서인지 예전엔 운칠기삼 이었다면 지금은 운구기일 이라고
      주위에서 그러더군요...
      그만큼 낙찰가(?) 맞추기는 어려운 것으로 알고 있습니다.

      별 도움이 못 되어 드린거 같은데...
      좋은 성과 얻길 바랍니다.

  2. 초보 2008년 11월 14일 23시  댓글주소  수정/삭제  댓글쓰기

    감사합니다.
    많은도움이 되었습니다.
    앞으로도 도움 부탁드림니다.
    안녕히 계세요