본문 바로가기
IDE

[IDE] HTTrack Website Copier

HTTrack Website Copier 






"Web scraping is a computer software technique of extracting information from websites."





● 크롤링(Crawling) 이란?


Web상에 존재하는 Contents를 수집하는 작업이다.

HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법으로 흔히 부르는 웹 크롤러 크롤링의 정식 명칙은 'Web Scraping'이다.







● HTTrack


웹 크롤링을 할 때에도 쉽게 환경을 제공을 해주는 툴들이 존재한다.  그중에서 HTTrack이라는 툴에 대해서 알아보겠다.


HTTrack Website Copier 홈페이지 : http://www.httrack.com/




HTTrack Website Copier 홈페이지에 들어간 후, 상단 카테고리의 Download를 클릭한다

자신에게 맞는 버전을 다운 받으면 된다




● Next





● 약관에 동의하고 또 Next





● 파일 경로를 지정하는 곳이다. Next 신공을 이어가도 무방하다





● 시작 메뉴 설정 화면이다. Next 신공을 이어가자





● 넥스트 신공을 이어가다 보면 설치를 시작한다





● 설치가 완료 되었다, 실행해보자






● 한국어가 없다. 영어로 하자





● New Project name : 내가 가져올 프로젝트명

Base Path : 가져 올 자료의 경로





● Scan Ruels 체크 후, 확인





● Add URL을 클릭후 크롤링 하고 싶은 URL을 입력 후 OK를 누르면 크롤링을 시작하게 된다.

'IDE' 카테고리의 다른 글

[IDE] Eclipse 단축키  (2) 2018.03.23