파이썬(Python)으로 웹 크롤링 공부를 시작하다

메인 워드프레스 블로그에는 GTranslate라는 서비스를 이용하여 일본어 버전을 추가하여 운영하고 있습니다.

자동번역기로 번역이 되었으므로 오류가 있겠지만 일본어를 전혀 몰라서 그대로 사용하고 있습니다. 자신 있는 외국어가 있다면 이런 서비스를 이용하여 외국어 버전을 추가한 후에 문제가 되는 부분을 수정해도 괜찮을 것 같습니다.

구글 애드센스의 통계에 의하면 일본어 버전에서 하루 약 100회 정도의 페이지뷰가 발생하고 있습니다. 매월 10달러가 지출되지만 애드센스 수익은 월 2~3달러로 적자를 보고 있습니다.ㅠㅠ

워드프레스 일본어 버전

GTranslate를 이용하여 일본어 등 외국어 사이트를 추가할 경우 추가로 페이지뷰가 발생하지만, 외국어 콘텐츠가 GTranslate 업체의 서버를 통해 로드되어서 콘텐츠를 백업할 방법이 없고 콘텐츠가 자동번역된 후에 구글에 색인되어서 그런지 SEO적인 측면에서도 그다지 바람직하지 않은 것 같습니다.

그래서 일본어 콘텐츠를 추출한 후에 새로운 워드프레스 사이트를 만들어서 이전할 수 있다면 좋겠다는 생각이 들었습니다.

현재 상황에서는 각 글의 콘텐츠를 복사하여 붙여넣기 방식으로 백업할 수밖에 없습니다. 글 개수가 몇 개 안 되면 가능하겠지만, 글이 거의 2800개에 달하기 때문에 복붙하는 것은 불가능에 가깝습니다.

파이썬으로 웹 상의 모든 콘텐츠를 추출할 수 있다는 말을 들은 적이 있어서 인터넷을 통해 '왕초보! 파이썬 배워 크롤러 DIY하다!'라는 책을 구입했습니다. 책을 구입하여 방금 파이썬 설치 부분까지 읽고 책의 저자가 운영하는 네이버 카페에도 가입했습니다.

책에서는 PC에서 파이썬을 설치하는 방법이 나오지만 저는 가상서버호스팅(VPS) 서비스를 제공하는 Digital Ocean에서 Ubuntu 서버를 하나 만들었습니다. (보통 테스트 서버를 만들 때에는 스냅샷을 무료로 이용할 수 있는 Vultr를 이용하지만 디지털 오션에 크레딧이 남아 있어 이번에는 디지털 오션에서 서버(Droplet이라고 함)를 만들었습니다.)

'왕초보! 파이썬...' 책에서는 파이썬 3.4.3 버전을 기준으로 설명하고 있지만 테스트로 이용할 서버에는 Python 3.6.7 버전이 설치되어 있습니다. 책의 내용이 파이썬 3.6.7에서도 제대로 작동할지 확신이 서지 않네요. 이 부분에 대해 책의 저자에게 문의해놓았는데 답장이 올지 모르겠습니다.

경험상 뚜렷한 목적 없이 무엇인가를 배우는 것은 매우 더디고 중도에 흐지부지 되는 경우가 많았습니다. 반드시 해야 한다는 목적 의식을 가지고 시작하면 진전도 빠르고 소기의 목적을 달성할 가능성이 높은 것 같습니다. 비록 시간이 부족하지만 열심히 노력하겠다고 다짐해봅니다.

※ 우리나라에서는 '웹 크롤링'이라는 용어가 사용되지만 영어에서는 'Web scraping'이라는 용어가 사용되는 것 같습니다.

댓글 남기기

Leave a Comment