지난번에는 어느 한쪽에 대해서만 익히 알고 있을 때를 가정했는데...
이번엔 양쪽 모두를 알고 있을 때를 생각해보자.
그리고 해당 지역별 산 높이는 정규분포를 각각 따른다고 하자.
만약 임의의 산에 높이를 알고 있을 때,
그 산이 어느 지역에 위치하는 산인지를 구분하고자 한다면?
그러기 위해선 38선이 하나 필요하다.
기준으로 삼을...
그래서 그 기준 보다 낮다면 수도권, 높다면 강원권으로 구분하면 될거 같다.
그렇다면 그 기준을 어떻게 잡나?
잘... -_-;;
간단히 생각해보자.
먼저 만만하게 평균이라고, 두 집단의 평균의 평균은 어떨까?
그래서 그 평균 보다 낮냐 높냐를 기준으로 삼는거다.
아니면 두 분포의 교점을 이용하는건 또 어떨까?
그래서 그 교점 보다 낮냐 높냐를 기준으로 삼는거다.
음...
이렇게 쉽게 될리 없다.
문제가 있다.
두 집단의 분산이 같다면 평균의 평균 또는 교점을 이용할 수 있지만
분산이 서로 다르다면 아니 된다.
분산이 다르다, 분산이 다르다... 다르다 다르다...
그럼 같게 만들면 되지!!!
표준화를 시키자.
그러면 표준화된 변수는 평균이 0, 분산이 1인 정규분포를 각각 따르게 된다.
그리고 그때의 교점을 찾으면 될거 같다.
여기서 교점이란 각각의 집단에 포함될 누적확률이 같은 지점이다.
그럼 그 교점은 어떻게 찾나가 문제인데...
엑셀의 해찾기 기능으로도 어느 정도 가능하다.
g11 셀
=NORMSDIST(STANDARDIZE(C9,C$4,C$5))-(1-NORMSDIST(STANDARDIZE(C9,D$4,D$5)))
이 결과 두 집단의 누적확률은 동일하게 된다.
계산된 기준(760.9m)에 따르면 북한산(836m)은 강원권에 위치한 산으로 구분짓게 된다.
그러나 이는 익히 알고 있는 정보와 다르다.
그렇다면 잘 못 판단할 확률은...
=1-NORMDIST(C9,C$4,C$5,TRUE)
또는
=NORMDIST(C9,D$4,D$5,TRUE)
그래서 기준 설정시 유효적절한 변수를 참고해야 한다.
참고한 변수가 흐리멍텅(?)하다면 기준도 덩달아 흐리멍텅해지게 된다.
이처럼 기존에 알려진 정보를 이용해 미지의 자료를 구분 짓는 방법을
통계에서는 판별분석(Discriminant Analysis)이라 하는데...
여기선 간단히 그리고 대충 보였지만, 다변량분석인 만큼 변수가 k개 일 때 이용하는지라
조금(?) 복잡하다.
복잡한 이유는 전적으로 아둔한 내 머리 탓이다. -_-;;
명박이 처럼 넘에 탓 때문이 아니다.



댓글을 달아 주세요