기사에 이동통신사의 원링 스팸 필터링 기준이 일정부분 공개됐는데,
내가 스팸 업자라면...
공개된 기준이 100건/시간, 1000건/일 이므로
1건씩 제한 99건/시간, 999건/일 으로 하면 필터링 기준을 피할 수 있겠다는 생각을
당연히 갖게 될 것이다.

그런데 이동통신사에서 이런 역발상을 생각 못 했을리 없을테니
좀더 잔머리를 굴릴 필요가 있다.

이런 경우를 예상해보자.

자료의 평균이 10 이다.
그럼 100 이하의 값이 나올 확률은?
P{X≤100|μ=10}
어떤 값이 나올텐데 미루어 짐작하길 상당히 높은 확률이 나올 것이다.

이번엔 자료의 평균이 1000 이다.
그럼 100 이하의 값이 나올 확률은?
P{X≤100|μ=1000}
이번에도 어떤 값이 나오겠지만 상당히 낮은 확률이 나올 것이라고 미루어 생각할 수 있다.

만약 단위 시간당 발신 횟수의 분포가 포아송분포를 따른다고 가정한다면
아래와 같은 확률을 얻게 된다.

01 02

P{X≤100|λ=추정평균} = Poisson(100,추정평균,true)
P{X≤1000|λ=추정평균} = Poisson(1000,추정평균,true)

그런데 문제가 있다.
발신 횟수의 분포라 임의로 정의했지만, 그 평균이 60, 100 또는 800, 1000 일 가능성은
내 상식으로는 기대하기엔 너무 큰 수치다.
그래서 원링 스팸으로 의심되는 발신 횟수 정도로 변수 정의를 조정해야 된다고 보고,
그랬을 때 위의 자료는 원링 스팸으로 의심되는 발신 횟수의 추정평균에 따른 
100 이하 또는 1000 이하가 나올 확률이 된다.

음...
내가 봐도 뭔 소린지 헷갈린다. -_-a
이럴 땐 명박이 처럼 무시 전략으로 대충 빗겨가고...
(나쁜건 언제나 빨리 배우고 또 빨리 퍼지게 되어 있다.)

그런데 스팸 업자에게 필요한 정보는...
P{X≤100|λ=추정평균} 에서 제한선에 걸리지 않을 추정평균은 얼마냐다?

추정평균이 86 일때 100 이하가 나올 확률이 0.9382 이다.
이는 역으로 원링 스팸으로 의심되는 다발신 횟수의 평균은 86 이라 할때,
발신 횟수가 101 라면 유의수준 0.05에서 평균이 86 인 포아송분포를 벗어나는 것으로
의심 받을 수 있다.
즉 평균 86 일때 101 은 많은 발신 횟수라는 의심을 받게 된다는 것.
그러므로 원링 스팸의 추정평균은 86 일 가능성이 높다.

그러나 여기에도 함정은 있다.
유의수준을 얼마로 설정했느냐다.
통상 유의수준은 0.1, 0.05, 0.01 로 설정하는데, 유의수준 0.01 일때 추정평균은 80 이 된다.
(물론 유의수준을 다르게 설정할 수도 있다.)

그래서 이것저것 고려했을 때, 필터링을 벗어나기 위한 시쳇말로 안전빵인 발신 횟수는
P{X≤100|λ=80} = 0.9868 ⇒ Poisson(91,80,true) = 0.8988
이므로 91회 정도가 된다.

1000건/일 인 경우는...
P{X≤1000|λ=930} = 0.9890 ⇒ Poisson(968,930,true) = 0.8960

그러므로 스팸 업자는 스팸용 전화번호 1개로 무한대에 가깝게 발신을 할 수 있던 것을
필터링으로 인해 한정된 수 밖에 처리할 수 없게 된다.
즉 스팸을 1만번 보낸다고 할시 기존에는 1개로 충분했지만 이제는 109개의 전화번호가
필요해졌다는 얘기.
또는 소요 시간을 더 길게 잡아야 한다.

이렇게 멋대로 계산해 봤는데...
그래도 이익이 난다면 스팸 업자는 달려들 것이다.
그러면 이동통신사는 또 다시 필터링 기준을 강화하고 감시할테지...
즉 악순환이다.
전혀 비생산적인 곳에 인력과 자본이 투입되는...
그리고 이 모든 피해는 결국 소비자에게로 돌아간다.

얼마 전엔 밤 11시가 넘어 스팸으로 추정되는 전화가 딱 한번 울렸다.
이넘들은 예의도 없다.
오밤중에 스팸질이게...

트랙백 주소 :: http://instatistics.officetutor.org/trackback/1016

댓글을 달아 주세요