요새 좀 조용했어요.. 생각좀 하느라고 ...
EAS 고도화 준비중.. 장비도 한마리 사고 ( CPU 네개짜리 ㅠ.ㅠ ) 들어갈 IDC  라인값 계산. ( 이것도 역시 ㅠ.ㅠ )

그래도 이런 사용자분들이 계셔서 보람 충전...
보안을 했던것을 인터넷 서비스를 하면서 써먹을 수 있을까 ? 생각했는데 유용하군요.
예전에 수고했고, EAS 때문에 곧 한번더 수고를 할 겐도사마... 화이팅 :)

Posted by Chester
2004 년즈음에 시작하여 2005 년에 확실하게 그 존재를 세상에 알린 Web2.0 [각주:1]!
닫힌 세계를 디딛고 열린 세상에서의 협업을 통하여 새로운 세상을 만들어 내라고 종용하고 있다. 개별의 개체들이  '열린 커뮤니케이션'을 통해서 정보를 주고받으며 발전하고 있다. 서비스간의 경계는 하루가 멀다하고 허물어 지고 있으며, 전례없는 커뮤니케이션의 홍수는 우리를 새로운 곳으로 이끌어 가고 있다. 이러한 정보활동의 근간에 서게 된 것이 바로 블로그[각주:2]이다. 블로그의 오픈 커뮤니케이션에 막대한 짜증을 유발하는 존재가 있으니, 바로 Web SPAM이다.

1. 웹스팸은 무엇인가 ?

Web SPAM 은 주로 오픈된 커뮤니케이션을 지향하는 곳에서 발생하는 의미없는 광고성 댓글이나 트랙백들을 말한다. 보통 독립적으로 출현하지 않고, 한번 나타나게 되면 몇백개씩 떼를 지어서 출몰하는 경향이 있다.  주로  world-writable 한 blog 의 trackback 이나  comment 입력창에서 많이 발생한다. [각주:3]

보통 이렇게 생겼다.


( MovableType 과 같은 곳에서 CAPTCHA 방식을 많이 사용하고는 했으나, 이는 사용성을 저해할 뿐만 아니라, 손쉽게 스패머들에게 exploit되어 왔다. 궁극적인 답은 seamless content-filtering 방식이라고 생각한다. ) 이러한 웹스팸을 막기 위해서 업계는 어떤 방식을 사용하고 있는가 ?  몇몇 전문블로그 서비스와 대형포탈의 예제를 보자. ‘로그인한 사용자의 댓글만 허용하기’ 라는 항목이 있다. 지나가다 발견한 블로그 하나에 댓글을 달기 위해서 해당 서비스에 로그인을 해야 하는 것이다. 스패머들이 서비스에 반드시 로그인을 해야 되기 때문에 스패머들이 손쉽게 봇을 제작할 수가 없다. 그런만큼 효과도 좋다. 네이버 블로그와 같은 거대한 닫힌 공간일 경우에는 이를 위한 전용의 스팸봇을 만들기도 한다. [각주:4]

2. 웹스팸은 도대체 왜 일어나는가 ?

초창기에는 Google 의 Pagerank를 높이기 위해서가 주 목적이었다.  생각해보라, 명망있는 블로그사이트(즉, pagerank가 높은 사이트) 에서 수천개의 링크가 나를 가르키도록 만든다면, 나는 얼마나 많은 inbound link, 그것도 영양가 높은 link를 순식간에 만들수 있겠는가 ? casino , porno , viagra  와 같은 인기있는 키워드를 검색할때 나오는 랭크가 높아질수만 있다면 이는 곳 매출의 상승으로 직결된다고 할 수 있다. ( 이렇게 쉽게 이야기할 수 있을 만큼, google 의 pageview 는 엄청나다.[각주:5] )  이러한 효과를 얻기 위해서 열려있는 통로를 이용하는 것이다. 그러나, 대부분의 블로깅툴에서 link rel=”nofollow” 라는 옵션을 트랙백과 커멘트 부분에 도입하면서 PageRank 를 높일 수 있는 수단으로서의 웹스팸은 그 의미를 잃어 가게 된다. 그럼에도 불구하고 주춤하는 스팸은 지속적으로 창궐하고 있다. 
왜그럴까 ? 답은 Rule of Quantity 때문이다. 여기서 잠시 구글이나 네이버같은 거대검색엔진들의 수익모델에 대해서 살펴보도록 하자. 그들의 수익모델이 무엇인지 당신은 너무나도 잘 알고 있다. 바로 광고이다.  누군가 '의도'를 가지고 검색을 할때 광고를 살짝살작 노출하고 클릭당 연결비용을 받음으로서 비지니스가 성립하는 것이다.[각주:6]  도대체가 이해가 안간다고 ? 맞다. 당신과 나는 지금껏 검색사이트에서 광고를 눌러본 경험이 거의 없다. 거의 클릭하지 않는 광고를 가지고 그 정도의 돈을 벌고 있는 것이 우습지 않은가 ?  놀라운 사실은 실제로도 사람들은 광고를 거의 누르지 않는다는 것이다. 이를 표현하기 위해서 CTR[각주:7] 라는 것을 사용한다.  하나의 광고를 노출했을때 받게 되는 클릭비율을 표시한 것이다. 그 비율은 얼마나 될까 ?  Contextual 한 키워드 광고의 경우에도 그 클릭율은 그리 높은 수치가 아니라고 한다.   그럼에도 불구하고 엄청난 PV때문에 해외에서는 구글, 국내에서는 네이버가 그러한 매출을 갖게 되는 것이다. 웹스팸도 이와 크게 다르지 않다. 일단 많이만 보내놓으면 반드시 ‘수확’은 생기게 된다. 아무것도 하지 않는 것과는 비교도 되지 않을 정도로 확실한 방법이지 않는가 ?   누군가는 반드시 누르게 된다.
결론은 ?? 효과가 있다는 것이다. 스팸을 백만통 발송하는데 드는 비용은 얼마일까 ? ( 당연히 얼마 안들지 않을까? ) 백만통에서 0.1% 를 건졌다면 몇명에게 실제로 효과가 있었다는 걸까 ? 단순한 계산으로 약 천명정도는 응답을 한다는 것이다.[각주:8]

상적인 커뮤니케이션이 문제이다.  하나의 글을 쓰면 보통 몇개에서 몇십개의 커멘 문제는 스팸업자는 이런 이득을 얻게 되지만, 그 과정에서 희생당하게 되는 수많은 블로거들의 순수한 마음과 정트가 달리게 되고 이를 통해서 세상과의 커뮤니케이션이 일어난다. 그런데 이러한 공간에 몇백개의 커멘트, 그것도 의미없는 것을 넘어선 짜증나는 커멘트가 달리게 되면 어떤일이 발생할까 ? 정상적인 커뮤니케이션은 obsolete 되고 마는 것이다. ( 악화는 반드시 양화를 구축하게 되는 경우가 많다. )  이렇게 되면 블로거는 글을 쓰고자 하는 인센티브를 잃게 되고, 이는 결과적으로 블로고스피어를 좁게 만들어서 스패머들에게도 광고공간이 없어지는 결과를 만들게 되나, 언제 그 사람들이 생각하면서 살았을까 ? 당장 돈되면 무조건 하는거다.

우리는 이러한 웹스팸을 무!조!건! 막아야 한다.  블로거의 유입을 늘리고, 의미있는 커뮤니케이션을 보호하여 블로고스피어의 창발을 유도해야 한다. 우리의 수익모델이 거기에 있는 것을 떠나서 그것이 옳은 것이기 때문이다.

3. 어떻게 스팸을 막나 ?

가장 간단한 방법은 keyword blocking 을 하는 것이다. 몇개의 금칙어를 만들어 놓고 금칙어에 해당하는 커뮤니케이션은 차단하는 것이다. 금칙어를 계속 늘려나가면 꽤 괜찮은 방법이나, 현실을 살펴보면 매우 귀찮은 작업일뿐더러 효과도 없다.  물론 모든 광고가 금칙어로 이루어져 있지도 않다. ( 이를 테면 건강식품 광고를 생각해보라. 처음부터 끝까지 좋은말만 나오며 그곳에서 출현하는 키워드들은 우리가 일상에서 늘 사용하는 말이다. )
훨씬 더 간단한 방법이 있다. 스패머들이 이용하는 Rule of Quantity 를 역이용하는 것이 그것이다. ( 집단의 선택이라는게 얼마나 효율적으로 동작하는지를 알고 싶다면 서로위키의 The 대중의 지혜(The wisdom of crowds) 를 보기를... )   불특정 다수가 나쁜놈이라고 하는 놈들은 나쁜놈일 확률이 매우 높다. 라는 것을 실시간으로 이용하는 것이다. 그런데 그게 뭐가 어려운 기술이라고 ? 그걸 해서 어떤 차이가 있는건지... 남들 다 할 수 있는건데 그걸 왜 해야 될지 고개가 갸우뚱 거리면 다음을 한번 생각해보자.
Google 에 대해서 한번 생각해보라. 구글이 가지고 있는 경쟁우위는 PageRank라는 독특한 알고리즘인가 ? 아니면 80억 페이지에서 이 관계를 실시간으로 계산해내는 '실시간 계산능력'인가 ?  PageRank 는 이미 잘 알려져 있는 알고리즘이며, 이를 유사하게 계산해내는 능력을 갖춘 사업자는 많다. 그러나 그 '계산능력'은? 오히려 경쟁력이라고 보이던게 경쟁력이지 않고, 그렇지 않아 보이는 것이 경쟁력이라는 것을 어떻게 생각하는가 ?
우리가 만드는 것은 바로 이런 것이다. 천만개의 블로그에 쏟아지는 스팸을 실시간으로 방어해내면서, 시간이 흐를수록 정교해지고 굳건해지는 것. 스팸필터는 아무나 만들수 있지만, 이러한 플랫폼은 쉽게 만들어 지지 않는다.

4. 스팸이라고 보기 애매한 것들도 있지 않은가 ?

그렇다. 이게 정상적인 커뮤니케이션인지 스팸인지 해결의 기준(?)이 애매한 것이 바로 Social SPAM 이다. 이것이 스팸인지 아닌지를 한참 들여다 봐야 하는 것이다.  “너무 아름다우세요.”  “정말 잘 디자인됐군요.” “스팸이 아니니 봐주세요.” 뭐 이런 것들이다.   ( 예를 들면 뭐 이런거 -> http://i-guacu.com/1181 )   ... 이것 역시 최대한 간단하게 처리하는 것이다. EAS 도 그렇게 하고 있다.  시도는 가볍지만 패널티는 가혹하도록.

5. 그렇게 해서 스패머들이 다 사라져 버리면 어떻게 되는 건가?  돈을 부과하겠다는 계획이 물거품이 되지 않는가 ?

군대가 왜 존재하는가 ? 전쟁억제력때문이다. 스팸필터가 없어지면 스팸은 창궐한다. 스패머 같은 질문이다.

6. EAS [각주:9]의 미래는 ?

EAS 는 그저 스팸필터 만들어 보겠다는 것이 아니다.
모든 '열린 커뮤니케이션'을 보호하는 플랫폼을 만들어서  인류에게 더 나은 미래를 선사하고, 진정한 지식사회를 위한 Obsolege[각주:10] filtering platform 을 한번 만들어 보려고 하는 것이다.  꼭 커멘트랑 트랙백만 걸러내야 하는 건가? 오히려 그것만도 못한 페이지 자체들도 많다.  도대체 무엇이 쓸만한 것이고, 무엇이 그렇지 않은것인가 ?[각주:11] 속시원한 대답을 할 수 있는 방법들이 분명히 존재한다. 그 답을 EAS 가 하게 될 것이다.



  1. 개인적으로 Web2.0 에 대해서 고개를 갸우뚱 하는 사람중의 한명이다. 역설적이지만 지금껏 회사를 소개하면서  Web2.0 이라는 단어와 연결시킨 피칭을 한적은 VC에 이야기할때 뿐이었다. 오히려 Web2.0 이라는 단어는 그 실체가 무엇이 되었던 간에 대중으로 하여금 '무언가 변해야 한데요!!' 라고 외치는 동인의 역할을 해왔다는 점에서 오히려 더 큰 점수를 주고 싶다. [본문으로]
  2. 블로그의 사전적인 정의에 집착하지 말자. 편집창 떠서 글을 넣건 사진을 넣건 사용자가 무언가를 입력하는 것은 다 블로그라고 정의하고 있다. ( by TNC ) [본문으로]
  3. 트랙백 스팸의 예제를  interviewlog.com 에서 주로 캡쳐하는데 .. 블루문님 제발 interviewlog.com 에  EAS 적용을 ^^ [본문으로]
  4. 개인적으로 네이버는 닫힌 공간이라고 치부해버리기에는 너무 넓다. 고인물은 썪게 마련! 이라는 표현이 안어울리는 호수도 있다. 사해나 바이칼호, 오대호, 뭐 이런애들. [본문으로]
  5. 궁금하면 Search Econmy라는 글을 참고하라. [본문으로]
  6. 가끔은 광고 그 자체가 킬러 컨텐트가 되기도 한다. 벽에 페인트칠을 하고 싶다. 이걸 검색했을 때 당신은 당신 집 주변의 업체가 나오길 바라는가 직접 칠하는 법이 나오길 바라는가 ? 대부분이 전자의 의도를 가지고 있다. [본문으로]
  7. Click Through Rate [본문으로]
  8.   스팸이 멈추지 않는 이유가 무엇일까? 돈이 안된다면 진작에 끝났을 일이었을텐데? [본문으로]
  9. Eolin Antispam Service , http://antispam.eolin.com [본문으로]
  10. 내가 만든 용어는 아니고 Obsolete Knowledge 를 줄여서 그렇게 부른다. [본문으로]
  11. 물론 레이싱걸 찌라시 같은 것이 나쁜 것이라고 말하는 것은 아니다. (사실 본인은 그런거 좋아한다.) 오히려 그저그런 데이터들이 엄청나게 복제되어 있는 상황이 더 나쁘다고 할 것이다. 그런거야 클러스터링을 해서 묶어주면 되지 않겠냐고 반문할지 모르겠으나, 그거 매우 귀찮은 일이고, 상당히 돈드는 일일뿐더러 해줘봐야 고맙다는 이야기할 고객도 없다. [본문으로]
Posted by Chester

EAS 100만건 처리..

2006. 7. 21. 00:05

그중에서 98.05% 가 스팸.. 대단하심..
Posted by Chester
다들 스팸에서 평안하신지요 ? EAS(Eolin Antispam Service) 에서 막아내는 스팸의 양이 점점 늘고 있습니다. 베타임에도 불구하고 정말 많은 분들이 사용해주시는 군요..  EAS 전용서버의 도입이전에 몇십만건을 막아냈는데... 오랜만에 들여다보니 열심히 일하고 있었군요.. 전체 코멘트/트랙백 중에서 무려 98.42% 가 스팸이군요. 스팸에서 고통받고 계시는 분들은 주저 말고 EAS 를 선택하세요 .. ^

계속 수고해주세요 ^^^



Posted by Chester

카테고리

분류 전체보기 (756)
Life Log (612)
생각의 단편 (65)
Textcube (41)
Search (3)
즐거운 것들 (5)
P.U (0)
category (0)

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

달력

«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

글 보관함