인터넷 상의 스팸 메일/댓글/트랙백/포스팅을 생산하는 자들과 막는 사람들의 대결은 생물학에서 말하는 진화적 군비경쟁 을 연상케하는 면이 있다. 한 쪽이 발전하면 다른 쪽도 그에 비례하는 발전을 이뤄낸다.
일단 블로그에 해당하는 사항들만 생각해보자. 스팸 댓글의 경우엔 막는 방법이 거의 끝까지 진화한 상태라고 생각한다. 대부분의 블로그나 포럼에서 댓글이나 글을 쓸 때에는,
- 인증된 사용자를 요구하거나 – 이 방법은 좀 아니라고 생각하지만(…)
- 그림으로 된 문자를 인식하는 등의 기계적으로 하기 힘든 연산을 요구
- Comment form을 거치지 않고 직접 넘어오는 것을 발견하는 등 – JavaScript로 MD5Sum을 요구한다거나 등등
- 함정으로 사용되는 폼 필드를 두거나
하는 식의 막는 방법들이 존재한다. 그리고 스팸 댓글은 읽지 않기 때문에 그 효과가 떨어져서 요즘은 좀 더 줄어들었다고도 생각한다. 사실 광고 효과가 거의 전무하잖아? 물론 스팸 사용에 필요한 비용이 여전히 아주 작기 때문에 없어지진 않았지만…
스팸 트랙백의 경우 구글 페이지 랭크를 올린다던가 하는 목적으로 사용되기 때문에 – 즉 특정 내용을 가진 페이지와 링크를 최대한 스패머의 페이지가 되게 만들려는 목적이다 - 앞으로는 가장 많이 이용되는 스팸형태가 아닐까? 그렇지만 스팸 트랙백의 경우에는 점점 더 트랙백을 사용하는 곳이 줄어들고 (이건 내가 보기에만 이런가?) 트랙백을 보내는 페이지에 받는 페이지 링크가 존재할 것을 요구하는 핑백의 사용이 증가하고 있기 때문에, 어느 정도는 제어할 수 있다고 생각한다.
그리고 기계적으로 스팸을 분류해내는 지능형 알고리즘/서비스들이 증가하고 있다. WordPress 쪽에서 널리 사용되는 Akismet 같은 경우 중앙에서 스팸 댓글/트랙백 정보를 유지하고 이를 기반으로 스팸 판단을 대행해준다. 동일한 내용이나 동일한 장소로의 링크의 존재는 스팸일 가능성이 높기 때문에 상대적으로 차단하기도 쉬워지는 것 같다.
마지막으로 스팸 블로그(…)로 불리우는 것들의 존재인데, 지난 15일에 WordPress 대쉬보드에 이런 글이 눈에 띄였다. Spinning Spammers Steal Our Blog ContenSpinning Spammers Steal Our Blog Content 라는 글인데, 떠오르는 스팸 방식으로 내용을 도용하고 블로그 내용 중 일부의 단어들을 동의어 사전을 이용해서 치환한 페이지를 생성해낸다는 것이다. 이런 방법을 사용하면 상대적으로 검색 엔진들의 중복검사를 피해갈 수 있기 때문에, 이런 내용의 페이지를 여기저기 만들고 거기에서 스패머의 페이지로 가는 링크를 둬서 상대적으로 높은 페이지 랭크를 얻어내는게 그 목적이 된다. 아마 이게 현 세대의 스팸 기술이 될 것 같은데, 상대적으로 문맥에서 동의어를 뽑아내는 기술이 없는 한국어에는 그 적용에 시간이 걸리겠지만, 이걸 막는 일은 쉽지 않을 것 같다.
원래 스팸을 막는 것은 개별 블로그인 경우가 많았는데, 이번에는 검색 엔진 등에게 그 화살이 날아갔다랄까? 앞으로는 검색 엔진에 동의어 치환을 포함한 문서 중복 판독 기능이 들어갈텐데 이런 기술들은 어디서 개발되고 있을지 궁굼하다.
ps. 이 포스팅은 속도 빠른 웹 서버로 옮긴지 2주만에 스팸 댓글/코멘트 1000개 달성에 성공한 비통함(…)이 작성 원인이다. 한글 블로그에 영문 스팸이 왜 이렇게 많아 Orz
Defensio 써보세요. 저도 얼마 전까지 Akismet 쓰다가 이걸로 바꿨는데, 꽤 좋습니다. 그런데 코멘트에 Markdown 서식 쓸 수 있게 해주시면 안될까요? HTML 쌩으로 쓰기가 좀 불편해서요. 흐흐;
Defensio 는 느리다는 평이 조금 있어서 지켜보는 중입니다.
Markdown은 괜찮아 보이네요. 조만간 설치해보겠습니다 :)
홍민희 /
MarkDown을 설치했었는데(과거형!), 일단 태그스럽지 않게 HTML을 쓸 수 있는 것은 좋은데, 문제는 얘가 포스팅 출력 시에도 사용되버려서 -_-;; 이전에 쓴 글들 중 일부의 레이아웃이 깨지네요;
댓글에만 사용되는 애를 찾아봐야해서 약간 더 걸리겠습니다(…)