통계에서 난수(Random Number)를 필요로하는 이유는 대충 이런거 같다? -_-a

어떤 자료의 속성을 파악해 분포(함수)를 찾아낸다.
그런데 이 분포가 해당 자료의 속성을 잘 반영하고 있는지를 검증해야되는데,
널리 구할 수 없는 자료라면 무작위로 생성해야된다.
(널리 구할 수 있는 자료라도 여타 여건 때문에 무작위로 생성한다.)
그때 난수를 이용하면 손 쉽게 검증 작업을 수행할 수 있다.
100,000 개 생성을 10,000 회 반복한다든지 또는 1,000,000 개를 100,000 회 반복한다든지...
즉 모의실험을 할 때 아주 유용하다.

그러나 이런건 개구멍으로 빠져나올 때 이미 다 반납했고... -_-;;
여기선 다른 용도로 난수를 생성해 이용하려한다.

엑셀에서 난수 생성을 지원하는 함수는 두가지다.
Rand, RandBetween
Rand는 연속형 난수고, RandBetween은 이산형 난수라고 하면 대충 통할 것 같다.
그 중 Rand를 이용하겠다.

이런 경우 어떻게 할까?
자료를 무작위로 배치하고자 한다.
단, 배치는 무작위이지만 생성된 자료가 차지하는 비율은 정해져 있다고 한다면...

01

여기서 비율의 합은 당연히 1 이다.
그리고 이 비율를 누적해보면...

02

c2 셀
=SUM(B$1:B1)

원래 난수 자체는 주사위의 숫자 처럼 균일분포를 따르지만,
생성된 난수가 제시된 범위 중 어디에 해당하냐만 찾아내면
요구되는 자료를 제시된 비율 만큼 생성할 수 있다.

03

h2 셀
=RAND()

i2 셀
=INDEX($A$2:$A$5,MATCH(H2,$C$2:$C$5,1))

이렇게 난수를 이용해 자료를 생성했는데, 원하는 비율을 보이는지 확인하기 위해서
위와 같은 방법으로 난수 100 개를 생성하고 그때의 빈도와 분포를 구하면...

04

어째 비슷한거 같기도하고 차이가 나는거 같기도하고...
뭐 돈 드는 것도 아니니 한 10,000 개 정도 생성하고 다시 빈도를 구해보자.

05

음...
10,000 개 계산하는데 시간이 조금 걸렸다.
엑셀2003 이라 100,000 개 생성/처리는 불편할거 같으니, 한 50,000 개 정도를 생성하면...

06

이거 처리되는데 약 10분 걸렸다. 파일 크기는 무려 5M에 육박한다.
이제 이걸 한 10,000 회 반복하는거다... T_T

트랙백 주소 :: http://instatistics.officetutor.org/trackback/994

댓글을 달아 주세요