HTTrack Website Copier
"Web scraping is a computer software technique of extracting information from websites."
● 크롤링(Crawling) 이란?
Web상에 존재하는 Contents를 수집하는 작업이다.
HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법으로 흔히 부르는 웹 크롤러 크롤링의 정식 명칙은 'Web Scraping'이다.
● HTTrack
웹 크롤링을 할 때에도 쉽게 환경을 제공을 해주는 툴들이 존재한다. 그중에서 HTTrack이라는 툴에 대해서 알아보겠다.
HTTrack Website Copier 홈페이지 : http://www.httrack.com/
HTTrack Website Copier 홈페이지에 들어간 후, 상단 카테고리의 Download를 클릭한다
자신에게 맞는 버전을 다운 받으면 된다
● Next
● 약관에 동의하고 또 Next
● 파일 경로를 지정하는 곳이다. Next 신공을 이어가도 무방하다
● 시작 메뉴 설정 화면이다. Next 신공을 이어가자
● 넥스트 신공을 이어가다 보면 설치를 시작한다
● 설치가 완료 되었다, 실행해보자
● 한국어가 없다. 영어로 하자
● New Project name : 내가 가져올 프로젝트명
Base Path : 가져 올 자료의 경로
● Scan Ruels 체크 후, 확인
● Add URL을 클릭후 크롤링 하고 싶은 URL을 입력 후 OK를 누르면 크롤링을 시작하게 된다.
'IDE' 카테고리의 다른 글
[IDE] Eclipse 단축키 (2) | 2018.03.23 |
---|