한국어권 혹은, 비 latin1 문자 계통을 쓰는 언어권의 블로그에서 흔히 사용되는 스팸 검사 기법 중 하나가,
해당 문장에 latin1 문자를 벗어나는 문자가 들어있는가
다. 물론 문장기호나 기타 등등은 빼고 생각하는 경우가 대부분이다. 언어권에 따라서는 요즘 떠오르는 별(…)인 러시아어 스팸들 때문에 latin1 + 키릴문자로만 되어있으면 스팸으로 처리하는 경우도 많다(…) — 해당 언어권에서 키릴 문자를 쓰지 않는 경우의 얘기이긴하지만;
여튼, 요즘 보이는게 대충 밑에 나온 녀석같은 형태의 것들이다. 전에는 거의 본적이 없는 형탠데, 최근 몇 개월 사이에 거의 25% 이상이 이런 녀석들로 바뀌었다.
일반적인 스팸의 구조를 두루갖추고(…), 뒷부분에 꼴랑 스팸이 달릴 포스팅의 제목 일부분만 가져다가 붙여놨다. 아마 이 정도면 latin1 만 거부한다거나 하는 구조에선 꽤 뚫릴법하다. 반대로 Bayesian filtering 같이 좀 더 기계학습에 가까운 방식을 쓰는 스팸 판독 방법이나 키워드 기반 스팸 판독에서는 제대로 분류가 되겠다라는 느낌 — 뒷부분을 빼면 기본적인 구조의 스팸이라.
스팸을 막으려는 쪽에서도 간단히 막을 방법 ((여기서는 latin1 이나 키릴 문자가 주가 아닌 언어권에서 자기네 언어권의 주요 문자가 아닌 걸로만 구성된 스팸을 튕겨내는 것)) 을 찾고, 스팸을 보내는 쪽에서도 간단히 통과할 ((제목이나 본문 첫 부분을 짤라서 넣는 것)) 방법을 찾고…
거대한 공진화의 일부랄까 끝없는 군비경쟁이랄까 -_-; 이상한 나라의 앨리스에서 인용하자면 붉은 여왕 효과라 해야하나…
스팸도 진화하는군요 ㅠㅠ
이제 한국어만 허용한다던가 하는것도 소용없어지는건가 ㅡㅜ
미나즈키 / 이 기회에 Akismet 연동을 해보심이.
그리고 연동하고나서 튜토리얼을 작성…(도망간다)
나는 폼에 안 보이는 textbox 넣고,
submit할 때 java script로 특정값을 쓰게 하고 확인 했더니 막히던데…
탱이 / 그거 좋긴한데, 나 처럼(…) w3m이나 lynx로 웹브라우징하는 사람은 댓글을 쓸 수 없게됨.
혹은 JavaScript 꺼버린 것들도 그렇고 -_-a