파이썬 - 네이버 영화 크롤링

파이썬 - 네이버 영화 크롤링

네이버 영화 페이지에서 현재 상영중인 영화와 정보들을 가져오고 각 영화에 달린 댓글들도 가져오는 파이썬 크롤러를 만들어 봤다.
모듈은 requests와 beautifulsoup4를 사용했다.
requests로 HTTP요청을 보내고 beautifulsoup4는 html구문을 분석할 때 사용했다.
마지막으로 크롤링이 끝난 후 csv형식으로 내보낸다.

내용 추가 예정

크롤링 결과 csv파일

이 링크를 통해 repl.it에서 가상으로 테스트 할 수 있다.

소스코드


2020년 4월 21일

너무 허전해보여서 flask로 웹에서 돌아가게 만들어 보았다.

역시나 repl.it의 서버를 사용하기 때문에 크롤링 속도가 굉장히 느리다.
page 값으로 0을 넣으면 빠른 결과를 얻을 수 있다.
대신 댓글은 가져오지 못한다.