지난번 영화관 상영(?) 년간 매출액 추정에 대해 살펴봤는데 너무 주먹구구였던거 같다.
그래서...
언제나처럼 내 맘대로 중회귀분석을 돌려본다.
(시계열분석을 고려해야되는데 쉽게쉽게 가련다... -_-;;)
※ 주의 : 해당 자료는 인용과정에 오류가 있을 수 있습니다.
위에 년도별 월 기준으로 정리된 자료를 시간 순으로 정리하면...
초기에는 상승 추세를 유지하다, 30개월 전후에서 추세를 이탈한 감이 느껴지는데,
일단 단순회귀를 구해보면...
그림은 그럴싸해 보이지만 결정계수가 0,3568로 매우 낮게 나타났다.
그리 마음에 들지 않는 수준이다. -_-;;
(결정계수는 낮아도 회귀모형은 유의미하다고 나왔다.)
음...
거짓과 가짜가 판치는 세상에 나도 한번...
이 모형은 가변수라는 것을 독립변수로 이용해서 구한 모형이다.
그리고 여기서 사용한 가변수는 매년 1,7,8,12 월 일때를 '1', 그외 월 일때는 '0'을 부여했다.
즉 방학기간을 반영하기 위해 임의로 설정한 가짜(Dummy) 변수이다.
여기서 잠깐,
가변수를 이용해서 구한 회귀계수와 가변수별 평균 매출액을 비교해보면...
혹시 느껴졌나?
가변수의 회귀계수와 평균 매출액의 차이는 같다.
즉 방학기간(1,7,8,12월) 일때는 그외 기간 보다 매출이 약 263억 가량 증가한다는 것을
회귀계수에서 보여주고 있다.
그러나 모형2의 결과는 결정계수 0.2513으로 앞에서 보다 더 낮게 나왔다.
영화 상영관 매출 자료에 대한 사전 지식 및 기존 분석 모형을 모르고 시작하니,
시쳇말로 맨땅에 헤딩 열심히 하는 중이다... -_-;;
그런데 만약에...
모형1과 모형2를 동시에 반영한다면 어떤 결과가 나올까?
결정계수가 0.6378로 앞서보다 상당히 높게 나타났다.
그러나 통상 기준으로 삼는 결정계수 0.7에 비해 아직도 낮은 수준이다.
음...
상당히 싫어하는 방식이지만,
시간을 로그변환한 변수와 가변수가 동시에 반영된 모형을 예상해보면...
결정계수가 0.7423으로 이제 조금 안심되는 수준까지 끌어올렸다.
그리고 모형도 유의미한 것으로 나왔으니 여기서 모형 추정을 대충 마치면...
매출액 = -2,529,403,800 + 19,322,707,518*Ln(시간) + 27,859,539,141*가변수
마친다고 했는데... 거짓말했다.
아직 끝난게 아니다.
잔차 검토가 아직 남아 있다.
만약 잔차가 정규성과 등분산성을 만족하지 못한다면 위에 모형은 파기해야 된다.
(빌자빌자 만족하기를...)
이때 잔차 보다는 표준화잔차를 이용하면 기준 잡기가 손쉽다.
어째 등분산성이 조금 위협받는 느낌이다.
또는 이상치가 발생된 느낌?
아무래도 이상치 쪽으로 몰아가는게(?) 편리해 보인다.
등분상성을 만족 못한다고 판단했버리면, 지금까지 작업이 도로아미타불(?)이 되니...
(현실과 영합을 너무 잘 한다... -_-;;)
참고로 이상치 판단기준은 통상 표준화잔차 값이 ±2를 초과한 경우로 본다.
그리고 '±2'란 유의수준 0.045 에서의 신뢰구간을 벗어난 기각역에 해당된다.
(유의수준 0.05는 약 ±1.96 이다.)
이상치 존재에 무개를 두고...
2006년1월(+), 2007년8월(+), 2008년4월(-) 에서 이상치가 나타났다.
2006년1월은 '왕의 남자'가 상영되던 시기고
2007년8월은 '화려한 휴가', '디워'가 상영된 시기다.
2008년4월은 시기적으로 비수기이지만 추정치 보다 더 낮게 매출이 발생됐다는건데...
통상 (+) 방향의 이상치는 눈에 확 띄는 반면, (-) 방향의 이상치는 원인을 추정하기가
쉽지 않다.
어쨌거나 이들 3개 자료를 제외하고, 즉 이상치를 제거하고 회귀분석을 다시 돌리면...
매출액 = -749,029,899 + 18,972,205,438*Ln(시간) + 22,915,806,446*가변수
회귀모형도 유의미하게 나왔고, 앞에서 보다는 잔차도 안정되어진 것으로 보인다.
그리고 결정계수는 약 0.04 증가한 0.7813으로 나타났다.
자... 결정하자.
이상치를 살릴지 죽일지...
그도아니면 이상치를 보정할지...
참고로 위에 작업은 엑셀2003 일때
도구->데이터분석->회귀분석 을 이용하면 좀더 손쉽게 구할 수 있다.
그리고 언제나 말하지만, 그렇다고 아무거나 무턱대고 돌리면 안된다.
컴퓨터는 이게 떵인지 된장인지 모른다.

영화1.xls


댓글을 달아 주세요