원시자료가 입력 완료되면 가장 먼저 진행하는게 도수분포표 확인이다.
오타도 나오고 이상치도 나오고, 어떤 분포를 띄는지가 대충(?) 나온다.
그리고 재수가 좋다면(?) 알듯모를듯한 규칙성도 나온다.
('도수분포표 확인' 절대 간과하지 말기 바란다.)
※ 주의 : 해당 자료는 인용 과정에 오류가 있을 수 있습니다.
각 구간에 따른 강원권 산이 차지하는 비율을 '강원비율'로 나타냈다.
e3 셀
=C3/$D3
그리고 이를 그래프로 나타내면...
음...
그림이 이쁘다.
그림을 좀더 보면 (정확하게는 도수분포표를 보는거다)...
조금 차이가 있으나 높이가 증가할수록 강원도에 있을 가능성 또한 증가한다.
이를 가지고 몇번을 떠들어온 회귀분석을 돌려보자.
엑셀의 추세선을 이용해 단순회귀를 돌려봤는데...
얼추 뭐가 하나 나올거 같다.
그런데 문제가 있다.
높이가 증가할수록 추정치는 1을 초과한다.
아니 이미 주어진 범위에서 초과했다.
합에 대한 비율이 0과 1 사이를 벗어나도 되는거야?
즉 모형이 적절치 못하다는 얘기.
그러므로 얘기는 다시...
처음으로 돌아간다. -_-;;
그림이 너무 이뻐서 버리긴 아깝고...
뭐 없을까? -_-a
책 좀 뒤적여보니 뭔가가 하나 나왔다.
로지스틱 회귀분석이라고...
이를 가고지 선학자들이 예술(?)을 펼치는데...
쥐?
아무튼 쥐새끼가 문제다.
언제나 말하지만, 이거 모른다고 사는데 전혀 지장 없다.
물론 나 또한 잊고 산지 오래고... -_-;;
(로지스틱 회귀분석에 대해서는 별도 확인 바람.)
로지스틱 회귀분석은 종속변수가 0과 1로 구성된, 즉 이진수인 경우 이용된다.
그 결과 추정치는 확률의 공리 중 하나인 첫번째를 만족하게 된다.
그리고 두번째도 만족하고 그래서 세번째도 만족한다.
그러므로 추정치는 확률이 된다.
'확률의 공리' 너 본지 언제더냐... ^^
자 다시...
위에 로지스틱 변환 방법을 이용해 '강원비율'을 '비율''로 바꾼다.
f3 셀
=LN(E3/(1-E3))
그리고 종속변수는 '비율'', 독립변수는 '구간'으로 회귀분석을 돌려 회귀계수를 구한다.
이때 보통은 오차가 독립 및 등분산이라고 가정하는데, 이를 만족하지 않는 경우가 있다.
그래서 보통의 경우 사용되는 방식을 OLS(Ordinary Least Squares) 추정량이라 하고,
다른 경우 사용되는 방식을 GLS(Generalized Least Squares) 추정량이라 구분하면...
(계산오류가 발생한 f11 셀은 추정량 계산에서 제외한다.)
OLS
=MMULT(MINVERSE(MMULT(TRANSPOSE(POWER($A$3:$A$10,{0,1})),POWER($A$3:$A$10,{0,1}))),MMULT(TRANSPOSE(POWER($A$3:$A$10,{0,1})),$F$3:$F$10))
GLS
=MMULT(MINVERSE(MMULT(MMULT(TRANSPOSE(POWER($A$3:$A$10,{0,1})),MINVERSE(N(ROW($D$3:$D$10)=TRANSPOSE(ROW($D$3:$D$10)))*1/($D$3:$D$10*$E$3:$E$10*(1-$E$3:$E$10)))),POWER($A$3:$A$10,{0,1}))),MMULT(MMULT(TRANSPOSE(POWER($A$3:$A$10,{0,1})),MINVERSE(N(ROW($D$3:$D$10)=TRANSPOSE(ROW($D$3:$D$10)))*1/($D$3:$D$10*$E$3:$E$10*(1-$E$3:$E$10)))),$F$3:$F$10))
두 수식 모두 배열수식이고, OLS는 LinEst 함수를 이용해 간단히 구할 수 있다.
OLS
=LINEST($F$3:$F$10,$A$3:$A$10,TRUE,FALSE)
즉 LinEst 함수는 OLS 방식을 채택하고 있는 것이다.
그리고 이렇게 추정된 회귀계수를 이용해 추정치를 구하면...
역시나 GLS의 잔차제곱합(SSE)이 더 낮게 나왔다.
g3 셀
=EXP(MMULT(POWER($A3,{0,1}),L$3:L$4))/(1+EXP(MMULT(POWER($A3,{0,1}),L$3:L$4)))
g12 셀
=SUMXMY2($E$3:$E$11,G$3:G$11)
이 결과는 높이라는 정보를 이용해 강원권에 있을 확률을 가리킨다.
그럼 배반사건에 해당되는 수도권에 대해서는 직접 계산해 보기 바란다.
논리적으론 1에서 강원권일 확률을 빼면 수도권일 확률이 나와야 한다.
그리고 이쯤에서 궁금이 하나 튀어 나올 것이다.
저번에 살펴본 판별분석과 로지스틱 회귀분석 중 어느 것이 더 효과적일까?
판별분석에서 얻은 기준 높이는 760.9m 이었다.
이를 로지스틱 회귀분석 결과에 대입하면...
OLS를 적용하면 강원권일 확률이 약 0.4598, GLS를 적용하면 약 0.3738로 나온다.
그러나 로지스틱 회귀분석 결과 확률이 0.5일 높이는 OLS를 적용하면 약 799.5m 이다.
GLS는 약 863.2m 로 추정 된다.
GLS로 하면 북한산(836m)은 강원권에 속할 확률이 0.4658로 나온다.
그에 반해 홍천 팔봉산(302m)는 강원권에 속할 확률이 OLS 0.1113, GLS 0.0558이다.
음...
또 다시 고민 시작이다. -_-a



댓글을 달아 주세요