블로그 서비스 이전 준비 중

이 블로그는 만든 이래로 계속 동아리 서버 신세를 지고 있는데 이젠 옮길 때가 된 듯하여 — SSL + SNI 문제라거나 — 옮길 곳을 찾는 중. 대략 EC2 도쿄리전 아니면 GMO 쪽으로 옮기지 않을까 싶은데; (대략 월 2만 이하 가격; 트래픽은 크지 않음…) 뭔가 써 보신 분들은 추천 좀. 대략 다음과 같은 부분을 생각 중: https-only […]

Scrapy로 웹사이트 크롤링 해보기

웹 사이트 몇 개(=네xx카페)를 지속적으로 크롤링 할 일이 생겨서 몇 가지 라이브러리를 뒤적여봤다. 처음 시도한 것은 selenium. 하지만 UI 요소에 의미있는 텍스트가 없거나, 반복해서 나타나는데 문맥 의존적으로 해석하게되면 완전 노가다. 그리고 내가 아는 범위 내에선 서버 데몬을 따로 띄우지 않고는 안되는 녀석이라 따로 돌리기 불편해서 중도 포기. 다음으론 항상 잘 써먹던, 비교적 규모가 작은 웹사이트에서 […]