Skip to content


요즘 눈에 띄게 증가한 스팸댓글/트랙백 유형

한국어권 혹은, 비 latin1 문자 계통을 쓰는 언어권의 블로그에서 흔히 사용되는 스팸 검사 기법 중 하나가,

해당 문장에 latin1 문자를 벗어나는 문자가 들어있는가

다. 물론 문장기호나 기타 등등은 빼고 생각하는 경우가 대부분이다. 언어권에 따라서는 요즘 떠오르는 별(…)인 러시아어 스팸들 때문에 latin1 + 키릴문자로만 되어있으면 스팸으로 처리하는 경우도 많다(…) — 해당 언어권에서 키릴 문자를 쓰지 않는 경우의 얘기이긴하지만;

여튼, 요즘 보이는게 대충 밑에 나온 녀석같은 형태의 것들이다. 전에는 거의 본적이 없는 형탠데, 최근 몇 개월 사이에 거의 25% 이상이 이런 녀석들로 바뀌었다.

spam_newcategory

일반적인 스팸의 구조를 두루갖추고(…), 뒷부분에 꼴랑 스팸이 달릴 포스팅의 제목 일부분만 가져다가 붙여놨다. 아마 이 정도면 latin1 만 거부한다거나 하는 구조에선 꽤 뚫릴법하다. 반대로 Bayesian filtering 같이 좀 더 기계학습에 가까운 방식을 쓰는 스팸 판독 방법이나 키워드 기반 스팸 판독에서는 제대로 분류가 되겠다라는 느낌 — 뒷부분을 빼면 기본적인 구조의 스팸이라.

스팸을 막으려는 쪽에서도 간단히 막을 방법[1] 을 찾고, 스팸을 보내는 쪽에서도 간단히 통과할[2] 방법을 찾고…

거대한 공진화의 일부랄까 끝없는 군비경쟁이랄까 -_-; 이상한 나라의 앨리스에서 인용하자면 붉은 여왕 효과라 해야하나…

  1. 여기서는 latin1 이나 키릴 문자가 주가 아닌 언어권에서 자기네 언어권의 주요 문자가 아닌 걸로만 구성된 스팸을 튕겨내는 것 []
  2. 제목이나 본문 첫 부분을 짤라서 넣는 것 []
이 저작물은 별도로 명시하지 않은 경우, Creative Commons Attribution-Share Alike 3.0 Unported License에 따라 이용하실 수 있습니다.

No related posts.

Posted in Computer.

Tagged with , .


4 Responses

Stay in touch with the conversation, subscribe to the RSS feed for comments on this post.

  1. 미나즈키 says

    스팸도 진화하는군요 ㅠㅠ
    이제 한국어만 허용한다던가 하는것도 소용없어지는건가 ㅡㅜ

  2. rein says

    미나즈키 / 이 기회에 Akismet 연동을 해보심이.
    그리고 연동하고나서 튜토리얼을 작성…(도망간다)

  3. ehooi says

    나는 폼에 안 보이는 textbox 넣고,
    submit할 때 java script로 특정값을 쓰게 하고 확인 했더니 막히던데…

  4. rein says

    탱이 / 그거 좋긴한데, 나 처럼(…) w3m이나 lynx로 웹브라우징하는 사람은 댓글을 쓸 수 없게됨.
    혹은 JavaScript 꺼버린 것들도 그렇고 -_-a



Some HTML is OK

혹은 트랙백 보내기 / or, reply to this post via trackback.