무한대

Population 2008년 06월 23일 22시
전화는 걸고, 전보는 치고, CD는 굽는다고 말한다.
그런데 분석은 왜 돌린다고 하지?
나만 그러나... -_-a

엑셀의 LinEst 함수 도움말에 나오는 예제를 가지고 중회귀분석을 돌려보자.

061

그런데 회귀 모형을 어떤걸 예상하고 돌려야할까?

Y = C0 + X1 + X2 + X3 + X4

예제의 경우 독립변수 4개 모두를 이용했다.
자료가 11개 인데, 변수를 4개나 사용한다?
좀 그렇다...
그래서 예상되는 변수의 조합을 모두 구해보았다.

062

참고로 위에서 'C0'는 상수항으로, 기본으로 하겠다.
그리고 결정계수는 클수록, MSE(오차평균제곱)가 작을수록 회귀 모형이 적합하다.

위에서 구한 결정계수와 MSE에 대해 각각 순위로 나열하면...

063 064

결정계수는 8위와 9위 사이에서 레벨 업(?)을 단행했다.
그리고 순위 1~3위에서 결정계수의 증가세는 정체되고 있다.
그리고 MSE는 결정계수에 반비례하여 나타나고 있다.

이번에는 모형에 적용한 독립변수의 수에 따라 최대 결정계수와 최소 MSE를 정리하면...

065 
066

독립변수를 3개 이용할 때와 4개를 이용할 때 간에 결정계수의 차이는 상대적으로
그리 커 보이지 않는다.
그에반해 2개를 이용할 때와 3개를 이용할 때 간에 차이는 상대적으로 커 보인다.
즉 독립변수의 수가 3개 정도가 되면 결정계수의 증가세는 정체되는 모습을 보인다.

자 그럼 결정을 하자.
뭘?

어떤 회귀 모형을 선택할지를...
그냥 결정계수 높은거 선택하는거 아니야?

라고 얘기할 수도 있겠지만, 모수 절약의 원칙을 떠나
앞서 말했듯이 자료가 11개인데 모수가 4개나 된다는 건 효율적이지 않아 보인다.
(물론 F검정, T검정 거치고 잔차도 살피고 해야하지만 여기선 논외로 한다.)
그래서 어떤 모형을 선택할지를 고민해야 된다.
(결정계수 외에도 평가하는 항목들이 더 있는데... 복잡하고 잊은지 오래다. -_-;;)

그럼 왜 결정계수가 큰걸 선택하지 않는 걸까?
큰걸 선택하지 않는게 아니라, 효율적인 모형을 선택하는 것이다.
여기서 효율이란 많은 의미가 포함되겠지만, 통계로만 본다면
적은 수의 독립변수로 많은 변동을 설명할 수 있다면
굳이 더 큰 결정계수를 좇을 필요는 없다.
그래서 결정계수의 증가세가 정체되는 포인트가 최적이 된다.

Y = C0 + X1 + X2 +  X4

물론 독립변수가 2개 일때도 결정계수가 0.9를 넘으니 부적합한 모형이라고 말할 수 없다.
그렇다면 다른 누구는 이를 선택할 수도 있다.

Y = C0 + X2 +  X4

즉 회귀 모형이 유의미하다면 어떤 모형도 선택할 수 있는 것이다.
누가?
분석자가!

그럼 만약에 X1의 제곱항을 이용한다면 또는 X3의 삼제곱항을 이용한다면 어떨까?
이미 적합한 모형을 구했는데, 왜 또 해야하는데?

혹시 알아.
위에 모형 보다 좀더 적합한 모형이 나올지~~~

그래서 모형을 적합시키는 것은 무한대의 노력이 요구된다.

우스개 얘기가 떠오른다.
원가는 신도 모른다...


트랙백 주소 :: http://instatistics.officetutor.org/trackback/941

댓글을 달아 주세요